Google arbeitet mit WebMCP (Web Model Context Protocol) an einem Ansatz, der Websites zu sauber strukturierten Daten- und Aktionsquellen für KI-Agenten macht. Statt dass ein Agent mühsam das DOM „abkratzt“, Buttons errät oder sich durch fragile UI-Details hangelt, sollen Websites künftig standardisierte Tools bereitstellen, die ein Agent direkt ansprechen kann. Die Idee: weniger Bastelarbeit, mehr Verlässlichkeit – und vor allem deutlich weniger Bruch, sobald sich Layout oder Frontend-Code ändert.
Im Kern erweitert WebMCP das bekannte Navigator-Interface um navigator.modelContext. Darüber können Websites Funktionen registrieren, inklusive Beschreibung in natürlicher Sprache, klar definiertem JSON-Schema für Eingaben und einer Execute-Logik, die die Aktion ausführt. Google unterscheidet dabei zwei Ansätze: Eine deklarative API für einfache, formularbasierte Vorgänge und eine imperative API für komplexere JavaScript-Interaktionen. Praktisch heißt das: vom „Formular ausfüllen und absenden“ bis zum „komplexen Multi-Step-Flow“ soll alles sauber abbildbar sein – nur eben als strukturierter Tool-Aufruf statt als UI-Geklicke.
Spannend ist der Vergleich zu Microsofts NLWeb. NLWeb ist serverseitig gedacht und macht Websites zu MCP-Servern, die per natürlicher Sprache angesteuert werden können. WebMCP sitzt dagegen direkt im Browser-Kontext, ohne zusätzliche Backend-Komponenten. Das ist ein strategischer Unterschied: WebMCP adressiert den Punkt, dass viele agentische Interaktionen tatsächlich im Browser stattfinden – und genau dort standardisiert werden sollen.
Der politische (und für Entwickler praktische) Teil: Laut W3C Web Machine Learning Community Group arbeiten Google und Microsoft inzwischen gemeinsam an der Spezifikation. Das wirkt wie ein Signal, dass sich das Thema nicht in Insellösungen zersplittern soll. Für Unternehmen und Produktteams wäre genau das der entscheidende Hebel: Ein Standard, der nicht nur „schön gedacht“ ist, sondern breit implementiert wird.
Aktuell ist WebMCP noch Early Preview, über Googles Early-Access-Programm zugänglich, und in Chrome 146 als DevTrial verfügbar. Wenn Google das später in Chrome sowie in KI-Dienste wie Gemini integriert, könnte daraus ein ziemlich direkter Pfad entstehen: Browser-Agenten, die Websites nicht nur verstehen, sondern verlässlich bedienen – so wie APIs heute von klassischen Programmen genutzt werden.
