Die Forschungsgruppe der Hebrew University of Jerusalem hat sich intensiv mit der Frage auseinandergesetzt, wie sich die Anzahl verarbeiteter Dokumente auf die Leistung von Retrieval-Augmented Generation (RAG) Systemen auswirkt. Führt eine geringere Dokumentenzahl tatsächlich zu besseren Ergebnissen?
Die spannende Erkenntnis hinter RAG-Architekturen
Um dieser Frage auf den Grund zu gehen, haben die Forschenden den MuSiQue-Datensatz herangezogen – ein Multi-Hop Question Answering Datensatz mit 2.417 Fragen, die jeweils mit 20 Absätzen aus Wikipedia-Dokumenten verknüpft sind. Von diesen Absätzen enthalten lediglich zwei bis vier relevante Informationen zur Beantwortung der Frage, während der Rest als Ablenkung dient.
Basierend auf dieser Struktur erstellten die Wissenschaftler:innen verschiedene Datenpartitionen, um den Einfluss der abgerufenen Dokumente besser untersuchen zu können. Durch eine schrittweise Reduktion der Dokumentenzahl von 20 auf 15, 10, acht und schließlich nur auf die relevanten Dokumente, konnten sie präzise Messungen vornehmen.
Die Ergebnisse zeigen klar: Modelle wie Llama-3.1, Qwen2 und Gemma 2 lieferten durchweg bessere Resultate, wenn die Anzahl der Dokumente reduziert wurde. Teilweise konnte die Leistung um bis zu 10 % gesteigert werden. Eine Ausnahme bildete lediglich Qwen2, das offenbar besser mit einer Vielzahl an Dokumenten umgehen kann.
Weniger Ablenkung, mehr Leistung
Ein weiteres bemerkenswertes Ergebnis: Wenn die Modelle ausschließlich auf relevante Dokumente zugreifen, wird die Leistung deutlich gesteigert. Ein kürzerer Kontext und das Eliminieren ablenkender Inhalte sind dabei die Schlüssel zum Erfolg. Die Studie weist außerdem darauf hin, dass unverwandte Dokumente, die oft in RAG-Systemen abgerufen werden, zu Verwirrung führen und die Leistung erheblich beeinträchtigen können.
Allerdings stellt das Forschungsteam klar, dass ihre Untersuchung einige Einschränkungen aufweist. So wurden beispielsweise keine Variationen in den Prompts oder mögliche Auswirkungen der Datenreihenfolge berücksichtigt. Trotzdem bietet ihre Arbeit wertvolle Hinweise darauf, wie Retrieval-Systeme zukünftig Relevanz und Vielfalt besser ausbalancieren könnten.
Zukunft von RAG und großen Kontextfenstern
Angesichts der immer weiter wachsenden Kontextfenster stellt sich auch die Frage, ob RAG-Systeme überhaupt noch notwendig sind. Während große Sprachmodelle immer besser darin werden, große Textmengen auf einmal zu verarbeiten, zeigt sich gerade bei kleineren Open-Source-Modellen, dass RAG-Architekturen nach wie vor bedeutende Vorteile bieten.
Ob und wie sich diese Technologien weiterentwickeln werden, bleibt spannend zu beobachten. Eins ist jedoch klar: Mechanismen, die widersprüchliche Informationen erkennen und verwerfen, könnten entscheidend sein, um das volle Potenzial von RAG-Systemen auszuschöpfen.