27. Oktober 2025

DeepSeek-OCR: Wenn Bilder Text neu denken

Manchmal braucht es einen ungewöhnlichen Ansatz, um ein altes Problem zu lösen. DeepSeek zeigt mit seinem neuen OCR-Modell, dass Bilder bei der Textverarbeitung für große Sprachmodelle überraschend effizient sein können. Doch wie funktioniert das genau – und was bringt dieser Ansatz?

Große Unternehmen kämpfen seit Jahren mit einem Problem: Dokumente liegen oft als gescannte PDFs vor, sind schwer durchsuchbar und komplex aufgebaut. Tabellen, Grafiken und Diagramme führen regelmäßig zu Fehlern, wenn sie in Textform gebracht werden. DeepSeek geht hier einen neuen Weg. Nach dem Reasoning-Modell R1 hat das chinesische KI-Unternehmen nun ein experimentelles OCR-Modell veröffentlicht – unter MIT-Lizenz und mit einem klaren Ziel: zu zeigen, wie sich lange Textkontexte durch Bildkompression effizienter darstellen lassen.

Statt reinen Text zu verarbeiten, wandelt DeepSeek-OCR Informationen in komprimierte Bilder um. Der Vorteil: weniger Token, weniger Speicherbedarf und dennoch hohe Genauigkeit. Laut DeepSeek erreicht das System bei einer Kompression um den Faktor 10 noch rund 97 Prozent Genauigkeit. Beeindruckend ist auch die Geschwindigkeit – auf einer Nvidia A100-GPU sollen bis zu 200.000 Seiten pro Tag verarbeitet werden können.

Ein Kernproblem großer Sprachmodelle sind lange Kontexte. Je mehr Text ein Modell gleichzeitig verarbeiten muss, desto stärker steigen Speicherbedarf und Kosten. DeepSeek begegnet diesem Dilemma, indem es den Kontext als Bild abbildet. Bilder tragen eine hohe Informationsdichte, und Vision Token können Text effizienter komprimieren. Genau das überprüft das Projekt DeepSeek-OCR experimentell – mit vielversprechenden Ergebnissen.

Auch technisch hat DeepSeek einiges zu bieten. Im Mittelpunkt steht der DeepEncoder, ein neues Modell, das mit hochaufgelösten Bildern umgehen kann, ohne zu viel Rechenleistung zu beanspruchen. Es kombiniert schnelle Window Attention, globale Kontextverarbeitung und einen sogenannten Convolutional Compressor, der die Datenauflösung gezielt verringert. Zusammen mit dem DeepSeek-3B-MoE-Modell entsteht ein leistungsfähiges OCR-System mit 570 Millionen aktiven Parametern. Bemerkenswert: DeepSeek-OCR erkennt nicht nur Text, sondern auch Diagramme, chemische Formeln und geometrische Strukturen.

Noch handelt es sich um eine Technikdemo, doch das Potenzial ist klar erkennbar. DeepSeek-OCR zeigt, wie sich das Verhältnis von Text, Bild und Bedeutung in der KI-Entwicklung verändern könnte. Wer sich für innovative Ansätze in der Dokumentenverarbeitung interessiert, sollte dieses Projekt im Blick behalten.


Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:


Tags


Das könnte Sie auch interessieren

Abonnieren Sie jetzt unseren Newsletter!

>