Das europäische Start-up NXAI hat eine neue KI-Architektur entwickelt, die das Potenzial hat, die Welt der Sprachmodelle auf den Kopf zu stellen.
Das von Sepp Hochreiter gegründete Linzer Start-up NXAI hat eine bahnbrechende Entwicklung in der KI-Forschung vorgestellt: die Extended Long Short-Term Memory (xLSTM)-Architektur. Diese innovative Architektur soll die bisher dominierenden Transformer-Modelle in zahlreichen Benchmarks übertreffen und dabei deutlich effizienter sein.
LSTMs sind seit den 1990er Jahren bekannt und wurden von Sepp Hochreiter und Jürgen Schmidhuber entwickelt. Sie zeichnen sich durch ihre Fähigkeit aus, sequenzielle Daten wie Texte zu verarbeiten und ein Kurzzeitgedächtnis zu nutzen, um weiter zurückliegenden Kontext zu berücksichtigen. Dies hat Anwendungen wie Sprachassistenten und maschinelles Übersetzen erheblich verbessert. Transformer-Modelle, wie sie in ChatGPT verwendet werden, haben jedoch in den letzten Jahren durch ihre Fähigkeit, große Textmengen zu verarbeiten und kontextuelle Zusammenhänge herzustellen, die Oberhand gewonnen.
Die xLSTM-Architektur von NXAI kombiniert nun die Stärken beider Ansätze. Durch die Skalierung von LSTMs auf Milliarden von Parametern und die Integration moderner Techniken von Large Language Models (LLMs) haben die Forscher eine Architektur geschaffen, die in Bezug auf Leistung und Skalierbarkeit den gängigen Transformer-Modellen überlegen sein soll.
Ein bedeutender Unterschied der xLSTM-Architektur ist das exponentielle Gating und die modifizierte Speicherstruktur, die das Kurzzeitgedächtnis stabiler und langlebiger machen. Erste Tests mit 15 Milliarden und 300 Milliarden Token aus dem SlimPajama-Datensatz zeigen vielversprechende Ergebnisse im Vergleich zu Modellen wie Llama und GPT-3. Wie sich xLSTM jedoch gegen die neuesten High-End-LLMs wie GPT-4 und Google Gemini behaupten wird, bleibt abzuwarten.
Sepp Hochreiter, der deutsche KI-Pionier, äußerte sich stolz über die Fortschritte seines Teams und betonte das Potenzial der xLSTM-Architektur, auch andere Bereiche des Deep Learning wie Reinforcement Learning und Zeitreihenvorhersagen erheblich zu beeinflussen.