Mit Aria setzt Rhymes AI neue Maßstäbe im Bereich der Künstlichen Intelligenz, die multimodale Eingaben auf eine völlig neue Ebene bringt.
Das japanische Start-up Rhymes AI hat mit Aria ein beeindruckendes KI-Modell vorgestellt, das nach eigenen Angaben das erste quelloffene, multimodale Mixture-of-Experts-(MoE)-Modell der Welt ist. Aria hebt sich vor allem durch seine Architektur und Effizienz hervor.
Die MoE-Technologie basiert auf einem Router-Modul, das spezialisierte Experten innerhalb des Modells auswählt, um nur relevante Parameter für jede Eingabe zu aktivieren. Dies reduziert den Rechenaufwand und ermöglicht es Aria, Aufgaben effizienter zu bewältigen. Mit insgesamt 24,9 Milliarden Parametern und einem Kontextfenster von 64.000 Token ist Aria in der Lage, sowohl Text, Code, Bilder als auch Videos zu verarbeiten.
Das Modell wurde in einem aufwändigen, vierstufigen Prozess trainiert, der zunächst Textdaten und später multimodale Eingaben umfasste. Dabei kamen Daten aus bekannten Quellen wie Common Crawl und LAION zum Einsatz, was zu einer beeindruckenden Leistung bei Benchmarks führte. Aria konnte sich sowohl gegen Open-Source-Modelle wie Pixtral-12B als auch gegen kommerzielle Alternativen wie GPT-4o und Gemini-1.5 behaupten.
Interessant ist auch die Zusammenarbeit von Rhymes AI mit dem Chiphersteller AMD, die es ermöglicht, Aria mit nur einer GPU auf verschiedenen Datenquellen und Formaten zu optimieren. Auf der „Advancing AI 2024“-Konferenz präsentierte das Start-up zudem die Suchanwendung BeaGo, die auf AMDs MI300X-Beschleuniger basiert und KI-gestützte Suchergebnisse für Text und Bilder liefert.