10. Juli 2024

Audiovisuelle Daten: Ein neuer Ansatz im Training von KI-Robotern

In einem bemerkenswerten Durchbruch haben Forscher der Stanford University und des Toyota Research Institute herausgefunden, dass die Trainingsleistung von KI-basierten Robotern erheblich gesteigert werden kann, wenn neben Videodaten auch Audiodaten verwendet werden.

Die innovative Studie „ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data“ zeigt, dass Roboter schneller und präziser neue Fähigkeiten erlernen können, wenn sie während des Trainings sowohl visuelle als auch auditive Informationen erhalten. Traditionell werden beim Training von Robotern ausschließlich visuelle Daten genutzt, doch die Einbeziehung von Audiodaten eröffnet neue Möglichkeiten.

Die Forscher nutzten das sogenannte „Ohr-in-der-Hand“-Datenerfassungsgerät, ManiWAV, um menschliche Demonstrationen mit synchronisierten Mikrofon- und Kameraaufnahmen festzuhalten. Diese synchronisierten Audio- und Videoinformationen wurden dann zur Entwicklung und Verbesserung der Robotermanipulationsstrategien verwendet.

In vier unterschiedlichen Experimenten wurde der Nutzen der Audiodaten getestet. Der Roboter sollte beispielsweise lernen, einen Bagel mit einem Pfannenwender zu wenden, ein Bild mit einem Radiergummi von einer weißen Tafel zu entfernen, Würfel von einem Becher in einen anderen zu schütten und die richtige Größe von Klebestreifen auszuwählen, um damit Kabel zu verbinden. Die Ergebnisse waren beeindruckend: Bei Aufgaben wie dem Umschütten der Würfel und dem Radieren eines Bildes konnte der Roboter dank der Audiodaten deutlich präziser und schneller arbeiten. So erkannte er etwa durch das Geräusch, ob sich Würfel im Becher befanden, und nutzte das Geräusch des Radiergummis, um den richtigen Anpressdruck zu ermitteln.

Allerdings zeigten die Experimente auch, dass Audiodaten nicht in jedem Szenario hilfreich sind. Beim Umdrehen eines Bagels konnte der Roboter beispielsweise nicht aus dem Geräusch ableiten, ob der Bagel tatsächlich gewendet worden war. Die Forscher zogen den Schluss, dass Audiodaten in bestimmten Trainingsszenarien sehr vorteilhaft sein können, auch wenn sie nicht in allen Fällen zu einer verbesserten Leistung führen.


Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:


Tags


Das könnte Sie auch interessieren

Abonnieren Sie jetzt unseren Newsletter!

>