Mit Mercury 2 stellt das Start-up Inception ein Reasoning-Modell vor, das sich technisch klar von klassischen Sprachmodellen abgrenzt. Während Transformer-Modelle Text sequenziell Token für Token erzeugen, setzt Mercury 2 auf einen diffusionsbasierten Ansatz. Inhalte werden parallel verfeinert – vergleichbar mit einem Lektor, der einen gesamten Textentwurf gleichzeitig überarbeitet, statt sich Wort für Wort vorzuarbeiten.
Das Resultat ist beeindruckend: Laut Inception erreicht Mercury 2 eine Geschwindigkeit von 1.009 Tokens pro Sekunde auf Nvidia-Blackwell-GPUs. Die End-to-End-Latenz liegt bei lediglich 1,7 Sekunden. Zum Vergleich: Gemini 3 Flash benötigt 14,4 Sekunden, Claude Haiku 4.5 mit aktiviertem Reasoning sogar 23,4 Sekunden. Für latenzkritische Anwendungen ist das ein massiver Unterschied.
Auch wirtschaftlich positioniert sich Inception aggressiv. Mit 0,25 US-Dollar pro Million Eingabe-Tokens und 0,75 US-Dollar pro Million Ausgabe-Tokens unterbietet Mercury 2 etablierte Wettbewerber deutlich. Besonders für Unternehmen mit hohen Token-Volumina – etwa im Bereich Suchsysteme, Coding-Assistenz oder Sprachassistenten – kann das schnell relevant werden.
Technisch bietet das Modell ein 128K-Kontextfenster, unterstützt Werkzeugnutzung und strukturierte JSON-Ausgabe. Die Bereitstellung erfolgt über eine OpenAI-kompatible API, was die Integration in bestehende Architekturen vereinfacht. Ein direkter Test im Chat ist ebenfalls möglich, Early Access kann beantragt werden.
Strategisch ist der Schritt ebenfalls interessant: Inception hatte bereits 50 Millionen US-Dollar von Investoren wie Microsoft, Nvidia und Snowflake eingesammelt. Der nun vorgestellte produktionsreife Release signalisiert, dass Diffusion nicht nur ein Forschungsprojekt ist, sondern zunehmend als ernsthafte Alternative zur dominierenden Transformer-Architektur gehandelt wird. Auch Google Deepmind experimentiert mit ähnlichen Konzepten, hält sich jedoch seit Monaten bedeckt.
