Die Kombination von spezialisierten und allgemeinen Sprachmodellen könnte die Zukunft von RAG-Systemen prägen.
Ein neuer Ansatz namens Speculative RAG könnte die Art und Weise, wie RAG-Systeme arbeiten, grundlegend verändern.
Standard-RAG-Systeme (Retrieval-Augmented Generation) kombinieren Large Language Models (LLMs) mit externen Wissensdatenbanken, um die Genauigkeit der Antworten zu verbessern und faktische Fehler zu reduzieren. Diese Systeme haben jedoch ihre eigenen Schwächen, insbesondere bei der Verarbeitung großer Datenmengen und komplexer Zusammenhänge. Um diese Herausforderungen zu bewältigen, gibt es verschiedene Ansätze, RAG-Systeme weiter zu optimieren.
Ein vielversprechender Ansatz ist die kontextbasierte Suche mit Ranking (Knowledge Graph), bei der die Ergebnisse aus der Datenbank vorgefiltert werden, bevor sie vom LLM verwendet werden. Ein neuer und innovativerer Ansatz ist das Speculative RAG Framework, das darauf abzielt, die Effizienz und Genauigkeit von RAG-Systemen weiter zu steigern.
Das Speculative RAG Framework teilt die Aufgabe in zwei Schritte auf:
- RAG Drafter-Modell: Ein kleineres, spezialisiertes Modell generiert mehrere Antwortvorschläge parallel, basierend auf verschiedenen Teilmengen der abgerufenen Dokumente. Dieses Modell wird durch Instruction Tuning auf Tripeln (Frage, Antwort, Dokument) trainiert und erzeugt Begründungen für die Antworten.
- RAG Verifier-Modell: Ein größeres, allgemeines Modell überprüft die vom Drafter-Modell vorgeschlagenen Antworten und wählt die beste aus.
Durch die parallele Generierung aus verschiedenen Dokumenten-Untermengen schafft es das spezialisierte Modell, qualitativ hochwertige Antwortmöglichkeiten mit einer reduzierten Anzahl von Input-Tokens zu erzeugen. Das generische Modell kann diese Vorschläge effizient verifizieren, ohne lange Kontexte verarbeiten zu müssen.
In Tests erzielte das Speculative RAG Framework eine bis zu 12,97 Prozent höhere Genauigkeit bei 51 Prozent geringerer Latenz im Vergleich zu herkömmlichen RAG-Systemen. Forscher der Universität California und Google sehen in der Aufteilung in spezialisierte und allgemeine Modelle einen vielversprechenden Ansatz, um die Leistungsfähigkeit von RAG-Systemen zu steigern. Dieses Framework zeigt das Potenzial kollaborativer Architekturen für wissensintensive KI-Aufgaben.