Wissenschaftler haben mit GOT ein vielseitiges OCR-Modell entwickelt, das neue Maßstäbe setzt.
Ein Forscherteam hat ein universelles optisches Zeichenerkennungsmodell (OCR) mit dem Namen „GOT“ entwickelt, das die Stärken traditioneller OCR-Systeme und großer Sprachmodelle (LLMs) vereint. GOT, das in einem Forschungspapier als Basis für die Ära von OCR-2.0 beschrieben wird, zeichnet sich durch seine einheitliche Ende-zu-Ende-Architektur aus. Diese ermöglicht eine hohe Effizienz bei geringerem Ressourcenbedarf im Vergleich zu LLMs.
Das Modell besteht aus einem Bildencoder mit etwa 80 Millionen Parametern und einem Sprachdecoder, der 500 Millionen Parameter umfasst. Der Encoder verarbeitet Bilder mit einer Auflösung von 1024 x 1024 Pixeln, komprimiert sie in Tokens und übergibt diese an den Decoder, der Texte mit bis zu 8.000 Zeichen Länge generiert. Das Besondere an GOT: Es kann nicht nur Fließtexte erkennen, sondern auch Formeln, Musiknoten, Diagramme und mehr in editierbaren Text umwandeln. In verschiedenen Experimenten erzielte GOT Bestwerte bei der Texterkennung in Dokumenten und Szenen. Bei der Analyse von Diagrammen übertraf es spezialisierte Modelle und LLMs. Seine modulare Architektur ermöglicht es, das System flexibel durch Training mit synthetischen Daten zu erweitern, ohne das gesamte Modell neu trainieren zu müssen. Unterstützt wird dies durch Tools wie LaTeX, Matplotlib und Verovio, die für die Erzeugung der Trainingsdaten genutzt werden.