Mistral OCR 4 macht Dokumente für KI-Workflows besser nutzbar

Mistral AI hat mit OCR 4 eine neue Version seines Dokumentenerkennungsmodells vorgestellt. Der Anspruch geht über klassische Texterkennung hinaus: OCR 4 soll Inhalte aus PDFs und anderen Dokumenten nicht nur auslesen, sondern zugleich so strukturieren, dass sie sich besser für Unternehmenssuche, RAG-Pipelines und automatisierte Workflows verwenden lassen.

Das Modell ergänzt erkannte Inhalte um Positionsangaben, Blocktypen und Vertrauenswerte. Jedes Element kann mit einer Bounding Box auf der Seite verortet werden. Zusätzlich erkennt OCR 4, ob es sich etwa um eine Überschrift, Tabelle, Gleichung oder Signatur handelt. Confidence Scores zeigen, wie sicher das Modell bei einzelnen Wörtern oder Seiten ist.

Für Unternehmen ist diese Struktur entscheidend. Eine Suchlösung kann dadurch nicht nur Begriffe indexieren, sondern auch berücksichtigen, in welchem Dokumentbereich ein Treffer steht. Prüfsysteme können unsichere Stellen gezielt an Menschen weitergeben. In Compliance- oder Redaktionsprozessen lassen sich Textpassagen im Originaldokument präziser markieren, prüfen oder schwärzen.

Mistral positioniert OCR 4 besonders für Enterprise Search, Retrieval-Augmented Generation und domänenspezifische Suchpipelines. Die strukturierte Ausgabe soll Dokumente in sinnvollere Informationsbausteine zerlegen. Mistral spricht dabei von semantischem Chunking: Nicht die Seitenlänge bestimmt die Aufteilung, sondern die tatsächliche Dokumentstruktur. Tabellen oder zusammenhängende Absätze bleiben dadurch eher als Einheit erhalten.

Auch für agentische KI-Systeme ist das relevant. Wenn ein System Rechnungen verarbeiten, Formulare ausfüllen oder Compliance-Prüfungen vorbereiten soll, reicht reiner Fließtext oft nicht aus. Es muss erkennen, welche Funktion ein Inhaltselement im Dokument hat.

OCR 4 unterstützt laut Mistral 170 Sprachen in zehn Sprachgruppen. Dazu zählen Englisch, west- und osteuropäische Sprachen, chinesische und ostasiatische Sprachen sowie eine Sonderkategorie mit Sprachen wie Hindi, Japanisch, Georgisch, Bengalisch oder Tamil. Mistral verweist besonders auf bessere Ergebnisse bei weniger verbreiteten Sprachen und bei Sprachen dieser Sonderkategorie.

Für Organisationen mit hohen Anforderungen an Datenschutz, Datensouveränität oder Compliance lässt sich OCR 4 auf Wunsch in einer eigenen Container-Instanz betreiben. Unterstützt werden unter anderem PDF, DOC, PPT und OpenDocument.

Bei den Benchmarks nennt Mistral 85,20 Punkte auf OlmOCRBench und 93,07 Punkte auf OmniDocBench. In einer Blindbewertung durch unabhängige Prüfer soll OCR 4 im Mittel besser abgeschnitten haben als konkurrierende OCR- und Document-AI-Systeme. Zugleich weist Mistral darauf hin, dass Benchmarks bei mathematischen Formeln, mehrspaltigen Dokumenten oder fehlerhaften Referenzdaten verzerrt sein können. Für eine belastbare Bewertung empfiehlt sich daher der Test mit eigenen Dokumenten und Workflows.

Die Anbindung erfolgt per API. Die Grundfunktion liefert extrahierte Inhalte, Bounding Boxes, Blocktypen, Confidence Scores und Markdown-ähnlich strukturierten Text. Zusätzliche Document-AI-Funktionen können JSON-Ausgaben nach vorgegebenem Schema erzeugen oder Inhalte per Prompt weiter interpretieren. Die OCR-API kostet laut Mistral 4 US-Dollar pro 1000 Seiten, im Batch-Betrieb 2 US-Dollar. Document AI liegt bei 5 US-Dollar pro 1000 Seiten.

Verfügbar sind OCR 4 und die Document-AI-Funktionen über Mistral Studio, Amazon SageMaker und Microsoft Foundry. Zudem ist OCR 4 in Mistrals Search Toolkit integriert, das sich derzeit in öffentlicher Vorschau befindet.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

Mistral OCR 4 macht Dokumente für KI-Workflows besser nutzbar

Mistral OCR 4 macht Dokumente für KI-Workflows besser nutzbar

Das könnte Sie auch interessieren

KI beschleunigt Cyberangriffe: BSI sieht neue Belastungsprobe für IT-Sicherheit

Claude Tag bringt den KI-Agenten direkt ins Slack-Team

Abonnieren Sie jetzt unseren Newsletter!