Microsofts "DIFF Transformer" bietet effizientere KI-Modelle und reduziert Halluzinationen

Microsofts „DIFF Transformer“ bietet effizientere KI-Modelle und reduziert Halluzinationen

Microsoft hat eine neue KI-Architektur entwickelt, den DIFF Transformer, der auf eine effizientere Verarbeitung von Informationen abzielt. Kann dieses Modell die Herausforderungen herkömmlicher Transformer-Modelle meistern und die Zukunft großer Sprachmodelle prägen?

Der DIFF Transformer setzt auf einen innovativen Mechanismus namens „differenzielle Aufmerksamkeit“, bei dem zwei Softmax-Aufmerksamkeitskarten berechnet und voneinander subtrahiert werden. Diese Methode erinnert an Noise-Cancelling-Kopfhörer, die Umgebungsgeräusche ausblenden. Der Effekt: irrelevante Informationen werden minimiert, wodurch das Modell präziser und effizienter wird. Herkömmliche Transformer neigen oft dazu, irrelevanten Kontexten zu viel Aufmerksamkeit zu schenken. Der DIFF Transformer soll dieses Problem durch eine verbesserte Fokussierung auf Schlüsselinformationen lösen.

Verbesserte Leistung mit weniger Ressourcen

In Tests zeigte der DIFF Transformer beeindruckende Ergebnisse, indem er ähnliche Leistungen wie herkömmliche Transformer-Modelle mit nur 65 Prozent der Trainingsdaten oder Modellgröße erreichte. Besonders bemerkenswert war seine Überlegenheit bei der Verarbeitung längerer Kontexte von bis zu 64.000 Token. Hier konnte er in „Needle in a haystack“-Szenarien, bei denen es darum geht, wichtige Informationen in langen Texten zu extrahieren, eine um bis zu 76 Prozent höhere Genauigkeit erzielen.

Reduzierte Halluzinationen und bessere Quantisierung

Ein häufiges Problem großer Sprachmodelle sind sogenannte Halluzinationen – das Erfinden von Fakten. Der DIFF Transformer reduziert diese um bis zu 19 Prozentpunkte, wie Tests an Datensätzen wie XSum, CNN/DM und MultiNews zeigen. Zudem ist das Modell robuster gegenüber Änderungen in der Reihenfolge der Trainingsdaten. Besonders bei der Quantisierung, der Reduktion der Modellgröße, bietet der DIFF Transformer erhebliche Vorteile: Bei einer extremen Quantisierung auf 4 Bit übertraf er herkömmliche Modelle in der Genauigkeit um bis zu 25 Prozentpunkte.

Eine vielversprechende Zukunft

Trotz der zahlreichen Vorteile weist der DIFF Transformer nur einen minimal geringeren Durchsatz auf, was die Forscher jedoch als geringen Preis für die insgesamt höhere Effizienz sehen. Mit dieser neuen Architektur könnte die Basis für zukünftige leistungsfähige Sprachmodelle geschaffen sein.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

Microsofts „DIFF Transformer“ bietet effizientere KI-Modelle und reduziert Halluzinationen

Microsofts „DIFF Transformer“ bietet effizientere KI-Modelle und reduziert Halluzinationen

Das könnte Sie auch interessieren

Siri AI in der Beta: Fortschritte sichtbar, Zugang weiter eingeschränkt

Fugu: Sakana AI setzt auf orchestrierte KI statt auf ein einzelnes Spitzenmodell

Abonnieren Sie jetzt unseren Newsletter!