Mit TML-Interaction-Small stellt das Start-up von Mira Murati ein Modell vor, das nicht einfach nur schneller antworten soll. Der eigentliche Anspruch ist größer: Sprach-KI soll laufende Gespräche besser verstehen, auf Audio, Video und Text gleichzeitig reagieren und nicht mehr an starre Sprecherwechsel gebunden sein.
Heute funktionieren viele Echtzeit-KI-Systeme noch nach einem vergleichsweise technischen Muster. Zwar nehmen sie Audio kontinuierlich entgegen, doch das eigentliche Sprachmodell bekommt häufig erst dann eine fertige Äußerung, wenn vorgelagerte Systeme entschieden haben, dass der Nutzer seinen Satz beendet hat. Genau dieses Prinzip bezeichnet Thinking Machines Lab als Harness-Problem.
Das Problem daran: Ein Gespräch ist selten sauber in Frage und Antwort getrennt. Menschen unterbrechen sich, reagieren auf Mimik, sehen Fehler in Echtzeit oder sprechen parallel, etwa bei Übersetzungen. Wenn KI hier wirklich alltagstauglich werden soll, muss sie nicht nur „antworten“, sondern aktiv am Gespräch teilnehmen können.
Interaction Models sollen genau diesen Schritt ermöglichen. Statt Audio- und Videodaten erst extern vorzubereiten, verarbeitet das Modell die Eingaben selbst. Der Ansatz arbeitet mit kleinen Mikro-Turns: Alle 200 Millisekunden verarbeitet das System neue Eingaben und erzeugt parallel passende Ausgaben. Dadurch muss es nicht warten, bis ein klassischer Sprecher-Turn abgeschlossen ist.
Das eröffnet spannende Möglichkeiten. Das Modell kann theoretisch schweigen, gezielt einwerfen oder gleichzeitig sprechen, wenn der Kontext es sinnvoll macht. Gerade für Live-Übersetzung, visuelle Assistenz oder kollaboratives Arbeiten mit KI wäre das ein wichtiger Fortschritt. Man merkt an diesem Ansatz deutlich, dass es nicht nur um eine hübschere Sprachschnittstelle geht, sondern um eine neue Form der Interaktion.
Damit das Echtzeitmodell nicht an komplexeren Aufgaben scheitert, kombiniert Thinking Machines Lab es mit einem zweiten Hintergrundmodell. Dieses übernimmt längere Denkprozesse, Tool-Nutzung oder Recherchen. Beide Modelle teilen denselben Gesprächskontext. Während das schnelle Interaktionsmodell den Dialog am Laufen hält, kann das Hintergrundmodell tiefere Aufgaben bearbeiten und Ergebnisse später einbringen.
Auch die technischen Eckdaten sind beachtlich: TML-Interaction-Small ist ein Mixture-of-Experts-Modell mit 276 Milliarden Parametern, von denen 12 Milliarden aktiv genutzt werden. In Benchmarks zur Interaktivität soll es OpenAIs GPT-Realtime-2 und Googles Gemini-3.1-flash-live klar übertreffen. Besonders bei der Antwortlatenz wirkt der Abstand relevant: Thinking Machines Lab nennt 0,40 Sekunden für das eigene Modell, während GPT-Realtime-2 und Gemini langsamer abschneiden sollen.
Ganz ohne Einschränkungen ist der Ansatz aber nicht. Wenn Bild- und Audiosignale besonders direkt in den Transformer eingespeist werden, kann das Latenz sparen, aber möglicherweise feine visuelle Details erschweren. Auch komplexes Reasoning bleibt eine Herausforderung, wenn ein Modell im 200-Millisekunden-Takt reagieren muss. Deshalb ist die Kopplung mit einem zweiten Modell nicht nur elegant, sondern wahrscheinlich notwendig.
Für Thinking Machines Lab kommt diese Forschungsvorschau zu einem wichtigen Zeitpunkt. Das Unternehmen wurde 2025 von Mira Murati und weiteren ehemaligen OpenAI-Forschern gegründet und erhielt früh enorme Aufmerksamkeit sowie sehr hohe Finanzierungszusagen. Gleichzeitig stand die Frage im Raum, wann aus dem Anspruch ein konkretes Produkt oder zumindest ein belastbarer technologischer Beleg wird.
Mit dem Interaction Model liefert das Unternehmen nun erstmals ein eigenes KI-Modell, das diesen Anspruch sichtbar macht. Ob daraus ein Produkt entsteht, das OpenAI, Anthropic oder Google DeepMind ernsthaft unter Druck setzt, bleibt offen. Klar ist aber: Der Fokus auf echte Interaktion statt bloßer Antwortgenerierung trifft einen zentralen Punkt der aktuellen KI-Entwicklung.
