Microsoft hat mit den neuen Phi-3.5-Modellen eine interessante Lösung für KI-gestützte Anwendungen präsentiert, die vor allem durch hohe Effizienz und Mehrsprachigkeit überzeugen sollen.
Microsoft hat im Rahmen seiner Phi-3.5-Serie drei neue Open-Source-Modelle veröffentlicht, die für kommerzielle und wissenschaftliche Anwendungen entwickelt wurden. Die Modelle – mini-instruct, MoE-instruct und vision-instruct – zeichnen sich durch herausragende Reasoning-Fähigkeiten, Mehrsprachigkeit und Effizienz bei begrenztem Ressourcenverbrauch aus.
Das Phi-3.5-mini-instruct-Modell, die kleinste Variante der Serie, enthält 3,8 Milliarden Parameter und wurde speziell für Szenarien mit begrenztem Arbeitsspeicher und Rechenleistung optimiert. Trotz seiner geringen Größe erzielt es insbesondere in der Mehrsprachigkeit bemerkenswerte Ergebnisse.
Das Phi-3.5-MoE-instruct-Modell geht noch einen Schritt weiter: Mit 16 Experten, die jeweils 3,8 Milliarden Parameter enthalten, erreicht es in Benchmarks beeindruckende Ergebnisse in Mathematik und Sprachverständnis – und das bei einer minimalen Anzahl aktiver Parameter. Interessanterweise übertrifft es sogar größere Modelle bei Reasoning-Aufgaben.
Ein weiteres Highlight ist das Phi-3.5-vision-instruct-Modell, ein multimodales Modell mit 4,2 Milliarden Parametern. Es verarbeitet nicht nur Text, sondern auch Bilder und eignet sich hervorragend für Aufgaben wie Bildverständnis, optische Zeichenerkennung und die Verarbeitung mehrerer Bilder oder Videoclips. In Benchmarks hat es sich als konkurrenzfähig mit wesentlich größeren Modellen erwiesen.
Neben diesen beeindruckenden Fähigkeiten bringt die Phi-3.5-Serie jedoch auch einige Schwächen mit sich. So ist das Modell aufgrund seiner Größe limitiert, wenn es um die Speicherung von Faktenwissen geht, was zu Ungenauigkeiten führen kann. Zudem bestehen Sicherheitsbedenken, insbesondere hinsichtlich der Repräsentation verschiedener Gruppen und der Möglichkeit, unzuverlässige oder anstößige Inhalte zu erzeugen. Microsoft schlägt vor, diese Schwächen durch Kombinationen mit anderen Technologien, wie Suchmaschinenintegration, zu beheben. Die Modelle sind unter der MIT-Lizenz auf der Hugging Face Plattform frei verfügbar und können alternativ über Microsofts Azure AI Studio abgerufen werden. Allerdings erfordern sie spezielle GPU-Hardware, um ihre volle Leistungsfähigkeit zu entfalten.