Mit MolmoWeb bringt das Allen Institute for AI frischen Wind in ein Feld, das bisher stark von geschlossenen Systemen dominiert wurde. Statt Blackbox-Ansätzen setzt das Projekt konsequent auf Transparenz: Modelle, Trainingsdaten und Evaluierungswerkzeuge sind vollständig offen zugänglich. Das ist ein strategischer Schritt – denn bislang waren leistungsfähige Web-Agenten fast ausschließlich den großen Tech-Konzernen vorbehalten.
Technologisch geht MolmoWeb einen bewusst anderen Weg. Der Agent arbeitet rein visuell. Er „sieht“ Webseiten wie ein Mensch – über Screenshots. Daraus leitet er eigenständig ab, welche Aktion als Nächstes sinnvoll ist: klicken, scrollen, tippen oder navigieren. Auf Quellcode oder strukturierte Seitendaten greift er nicht zu. Das macht ihn robuster gegenüber Änderungen im Hintergrund einer Website und gleichzeitig transparenter in seinen Entscheidungen.
Besonders spannend ist der Trainingsansatz. Statt sich auf bestehende Modelle zu stützen, kombiniert MolmoWeb echte menschliche Interaktionen mit synthetisch erzeugten Browsing-Prozessen. Überraschend dabei: Die künstlich generierten Abläufe liefern teilweise bessere Lernergebnisse als menschliche Demonstrationen. Der Grund liegt auf der Hand – Maschinen arbeiten strukturierter und zielgerichteter, während Menschen oft Umwege gehen.
Auch bei den Leistungswerten zeigt sich, wie viel Potenzial in diesem Ansatz steckt. Trotz vergleichsweise kompakter Modellgrößen erreicht MolmoWeb Ergebnisse, die nah an deutlich größere, proprietäre Systeme heranreichen. In einigen Bereichen übertrifft es sogar etablierte Lösungen – ein klares Signal dafür, dass offene KI-Modelle zunehmend konkurrenzfähig werden.
Gleichzeitig bleiben Herausforderungen bestehen. Der rein visuelle Ansatz bringt Einschränkungen bei Texterkennung und komplexen Aufgaben mit sich. Kritische Funktionen wie Logins oder Bezahlvorgänge sind bewusst ausgeklammert. Und auch rechtliche Fragen – etwa zur Nutzung von Webseiten durch autonome Agenten – sind noch längst nicht geklärt.
