30. Oktober 2024

Apple entwickelt KI-System für plattformübergreifende App-Steuerung

Apple hat kürzlich ein neues KI-System für Benutzungsoberflächen vorgestellt, das die Interaktion zwischen verschiedenen Geräten wie iPhone, iPad und Apple TV ermöglicht. Doch wie genau funktioniert dieses innovative System und welche Herausforderungen will Apple damit bewältigen?

Ein vielseitiges KI-System für plattformübergreifende Interaktionen

Mit Ferret-UI 2 hat Apple ein KI-gestütztes System entwickelt, das Bildschirminhalte auf verschiedenen Plattformen erkennen und mit ihnen interagieren kann. Ferret-UI 2 wurde in umfangreichen Tests mit unterschiedlichen Sprachmodellen überprüft. Hierbei zeigte sich, dass das leistungsfähige Llama-3-Modell besonders effektiv arbeitet, während das kompaktere Gemma-2B-Modell gute Ergebnisse bei geringeren Ressourcen erzielt. Im Vergleich mit seinem Vorgänger und dem großen Cloud-Modell GPT-4o konnte Ferret-UI 2 bei der UI-Erkennung einen Spitzenwert von 89,73 erreichen.

Neues Training für eine präzisere Datenerkennung

Um das KI-System auf höchstem Niveau zu trainieren, nutzte Apple die visuellen Fähigkeiten des GPT-4o-Modells zur Generierung von Trainingsdaten. Dies ermöglicht es Ferret-UI 2, räumliche Zusammenhänge in Benutzungsoberflächen zu verstehen und sich so flexibler an verschiedene Plattformen anzupassen. Die Entwickler verfolgen das Ziel, die Bedienung von Apps intuitiver zu gestalten – so soll die KI Eingaben wie „Bitte bestätigen Sie die Eingabe“ direkt erkennen und die passende Schaltfläche selbstständig identifizieren.

KI-Agenten als zukunftsweisender Wettbewerb

Apple ist im Wettlauf um KI-gesteuerte Benutzungsoberflächen nicht allein: Neben Apples Neuerungen setzt auch Microsoft mit seinem Open-Source-Tool OmniParser auf verbesserte UI-Interaktionen, während Anthropic das Modell Claude 3.5 Sonnet für die Bildverarbeitung entwickelt hat. Die Vision eines selbstständig interagierenden KI-Systems steht dabei im Mittelpunkt, mit dem Ziel, komplexe Aufgaben in verschiedenen Anwendungen zu automatisieren.

Zukunftsvision: Die Rolle von Siri und dem Agenten-Framework CAMPHOR

Mit dem CAMPHOR-Framework hat Apple zudem ein hierarchisches Agentenmodell entwickelt, das komplexe Aufgaben in Schritte zerlegt und spezialisierte Agenten zur Durchführung beauftragt. Durch eine Kombination von CAMPHOR und Ferret-UI 2 könnte Siri eines Tages komplexe Aufgaben allein durch Sprachbefehle erkennen und ausführen, was die Bedienung nochmals deutlich vereinfachen könnte.


Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:


Tags


Das könnte Sie auch interessieren

Abonnieren Sie jetzt unseren Newsletter!

>