Microsoft hat eine neue KI-Architektur entwickelt, den DIFF Transformer, der auf eine effizientere Verarbeitung von Informationen abzielt. Kann dieses Modell die Herausforderungen herkömmlicher Transformer-Modelle meistern und die Zukunft großer Sprachmodelle prägen?
Der DIFF Transformer setzt auf einen innovativen Mechanismus namens „differenzielle Aufmerksamkeit“, bei dem zwei Softmax-Aufmerksamkeitskarten berechnet und voneinander subtrahiert werden. Diese Methode erinnert an Noise-Cancelling-Kopfhörer, die Umgebungsgeräusche ausblenden. Der Effekt: irrelevante Informationen werden minimiert, wodurch das Modell präziser und effizienter wird. Herkömmliche Transformer neigen oft dazu, irrelevanten Kontexten zu viel Aufmerksamkeit zu schenken. Der DIFF Transformer soll dieses Problem durch eine verbesserte Fokussierung auf Schlüsselinformationen lösen.
Verbesserte Leistung mit weniger Ressourcen
In Tests zeigte der DIFF Transformer beeindruckende Ergebnisse, indem er ähnliche Leistungen wie herkömmliche Transformer-Modelle mit nur 65 Prozent der Trainingsdaten oder Modellgröße erreichte. Besonders bemerkenswert war seine Überlegenheit bei der Verarbeitung längerer Kontexte von bis zu 64.000 Token. Hier konnte er in „Needle in a haystack“-Szenarien, bei denen es darum geht, wichtige Informationen in langen Texten zu extrahieren, eine um bis zu 76 Prozent höhere Genauigkeit erzielen.
Reduzierte Halluzinationen und bessere Quantisierung
Ein häufiges Problem großer Sprachmodelle sind sogenannte Halluzinationen – das Erfinden von Fakten. Der DIFF Transformer reduziert diese um bis zu 19 Prozentpunkte, wie Tests an Datensätzen wie XSum, CNN/DM und MultiNews zeigen. Zudem ist das Modell robuster gegenüber Änderungen in der Reihenfolge der Trainingsdaten. Besonders bei der Quantisierung, der Reduktion der Modellgröße, bietet der DIFF Transformer erhebliche Vorteile: Bei einer extremen Quantisierung auf 4 Bit übertraf er herkömmliche Modelle in der Genauigkeit um bis zu 25 Prozentpunkte.
Eine vielversprechende Zukunft
Trotz der zahlreichen Vorteile weist der DIFF Transformer nur einen minimal geringeren Durchsatz auf, was die Forscher jedoch als geringen Preis für die insgesamt höhere Effizienz sehen. Mit dieser neuen Architektur könnte die Basis für zukünftige leistungsfähige Sprachmodelle geschaffen sein.