Virtual Reality lebt von präzisen Bewegungen – doch aktuelle Trackingverfahren stoßen schnell an Grenzen. Kann akustische Signalerkennung hier echte Vorteile schaffen?
Die jüngste Forschungsarbeit der Hong Kong Baptist University zeigt einen spannenden Ansatz: Statt Kameras, Sensoren oder teuren Trackingmodulen nutzen die Wissenschaftler Ultraschallwellen, die von multimodalen Sprachmodellen ausgewertet werden. Das Ziel ist ein deutlich schlankerer Tracking-Stack, der weniger Hardwarebedarf hat und trotzdem zuverlässige Interaktion ermöglicht.
Im Kern sendet ein Smartphone hochfrequente Signale aus, die durch Hand- oder Controllerbewegungen verändert werden. Aus diesen sogenannten Channel Impulse Responses entstehen dCIR-Bilder, die das KI-System anschließend mit wenigen Beispielen klassifiziert. Beeindruckend ist, dass klare Gesten – etwa Zahlen oder einfache Formen – mit Erkennungsraten von über 90 Prozent zugeordnet wurden. Zwar liegen klassische Algorithmen wie kNN oder SVM bei der reinen Genauigkeit noch vorne, doch die LLM-basierten Methoden punkten mit minimalem Trainingsaufwand und erklärbaren Entscheidungen. Besonders bemerkenswert: GPT-5 zeigte die stärksten Ergebnisse bei Ziffern, während Claude 4 bei Buchstaben und komplexeren Formen die Nase vorn hatte.
Solche Verfahren könnten die Interaktion in immersiven Umgebungen nachhaltig verändern. Wenn Bewegungsdaten akustisch und ohne Kameras zuverlässig erfasst werden, entstehen völlig neue Möglichkeiten für mobile VR-Setups, kosteneffiziente Steuergeräte oder barrierearme Interfaces. Für Entwickler, die natürliche Interaktion im Fokus haben, eröffnet sich damit ein interessanter neuer Werkzeugkasten.
