Expertenmeinung: Die Ära der Sprachmodelle, in der sich OCR neu erfindet

Die automatisierte Dokumentenanalyse verändert sich. Dank des Fortschritts von LLM (Große Sprachmodelle) ist die einfache optische Zeichenerkennung (OCR) nicht mehr auf das Extrahieren von Text beschränkt: Ihr Ziel ist es nun, Dokumente intelligent zu interpretieren, zu verstehen und zu verarbeiten. Anlässlich der Konferenz ICDAR 2024 (International Conference on Document Analysis and Recognition), die Anfang September in Athen stattfand, berichteten Forscher und Unternehmen, darunter Luminess, vertreten durch François Wieckowiak in der CIFRE-Dissertation, über ihre Fortschritte zu diesem Thema. Spannender Austausch, der Perspektiven für zukünftige Entwicklungen eröffnetIntelligente Dokumentenverarbeitung (IDP).


I. OCR und LLM: von der Texterkennung zur Dokumentenintelligenz
OCR, früher als autonome Technologie angesehen, wird heute im Lichte von LLMs, den Modellen, die dazu in der Lage sind, neu überdachtAnalysieren und verstehen Sie Texte auf einem unübertroffenen Niveau. Wie Thomas Breuel von NVIDIA in seiner Keynote zeigte, markiert die LLM-Ära einen Wendepunkt für die Literaturanalyse. Drei Ansätze stechen in dieser neuen Ära hervor:

  1. Die klassische OCR- und LLM-Vereinigung : Nach der Textextraktion per OCR erfolgt die kontextbezogene Interpretation eines LLM. Diese Methode macht es möglich Führen Sie fortgeschrittene Aufgaben wie das Beantworten von Fragen aus zum Inhalt eines Dokuments (z. B. Beantwortung spezifischer Fragen basierend auf dem extrahierten Text). Dies ist ein leistungsstarker Ansatz, der jedoch von der Leistung der OCR abhängt.
  2. Neue multimodale Modelle : Diese Systeme sind in der Lage, sowohl Bilder als auch Text zu analysieren und überwinden bestimmte Einschränkungen traditioneller Ansätze. Das auf der Konferenz vorgestellte TiLT-Modell ermöglicht nicht nurden Text extrahieren, aber auch das Dokument „verstehen“. unter Berücksichtigung des Layouts und der grafischen Elemente. Es kann beispielsweise eine Kopfzeile von einer Fußzeile unterscheiden oder die Hierarchie der Titel in einem Dokument verstehen;
  3. Vollständiger Verzicht auf OCR : Modelle wie Donut oder GPT-4 Vision sind in der Lage, visuelle Dokumente direkt zu verarbeiten, indem sie deren Inhalt analysieren ohne vorherige Textextraktion. Eine technologische Leistung, die jedoch Fragen zur industriellen Akzeptanz aufwirft. 

Sind solche Ansätze in Produktionsumgebungen mit begrenzten Ressourcen realisierbar?


II. Inspirierende Anwendungsfälle: Die Zukunft von OCR in greifbarer Nähe
Fortschritte im Bereich OCR und LLM führen zu konkreten Ergebnissen. Mehrere auf der Konferenz vorgestellte Studien hoben hervor innovative Apps :

  • Anerkennung von Lebensmitteletiketten : Eine Studie verglich den OCR + LLM-Ansatz mit dem GPT-4 Vision-Modell. Letzteres hat übertraf die herkömmliche OCR um 15 % in der Präzision durch direkte Verarbeitung von Bildern, was die Wirksamkeit der visuellen Analyse hervorhebt;
  • Verbessertes Layout : Das LAPDoc hat gezeigt, dass die Integration eines räumlichen Formats zur Darstellung des Layouts erforderlich ist verbessert die LLM-Leistung um 20 % im Vergleich zu rohen OCR-Ausgaben unter Berücksichtigung der Struktur des Dokuments;
  • Handschriftliche Anerkennung : In Umgebungen mit geringer Produktivität hat die Verwendung von Modellen wie CRNN (Convolutional Recurrent Neural Network) + CTC (Connectionist Temporal Classification) gezeigt, dass weniger komplexe Lösungen in bestimmten Kontexten genauso effektiv oder sogar vorzuziehen sein können. Diese Modelle haben eine erreicht 95 % Genauigkeit bei handgeschriebenen Textproben, bei 50 % weniger Ressourcenbedarf rechnerisch als LLMs.

Diese Beispiele verdeutlichen nicht nur das Potenzial neuer Technologien, sondern auch die Notwendigkeit, eine Wahl zu treffen Lösungen, die an spezifische Bedürfnisse angepasst sind jeder Bewerbung.


III. Die Versprechen ... und die Grenzen von LLMs in der OCR
Trotz der Aufregung stellen diese neuen Technologien Herausforderungen dar.

Einer der Hauptpunkte, die während der Konferenz angesprochen wurden, war die Schwierigkeiten bei der Fehlerdiagnose in Hybridsystemen. Wenn eine Anomalie auftritt, ist es dann die OCR, die ein Zeichen falsch interpretiert hat? Oder der LLM, der nicht wusste, wie man die Informationen richtig kontextualisiert?
Darüber hinaus ist die Sammlung uDer Zugriff auf Trainingsdaten bleibt problematisch. In bestimmten Bereichen, wie zum Beispiel wissenschaftlichen oder juristischen Dokumenten, ist dieDer Zugang zu kommentierten und qualitativ hochwertigen Daten ist immer noch zu begrenzt. Dies behindert die Einführung dieser Technologien in Branchen, in denen es auf Präzision ankommt.
Eine weitere Herausforderung liegt in der Kostenmanagement. LLMs sind es aufgrund ihrer Komplexität und der benötigten Rechenleistung ressourcenhungrig. Laut einer aktuellen Studie können die Kosten für den Einsatz eines LLM bei ähnlichen Aufgaben bis zu zehnmal höher sein als bei einem herkömmlichen OCR-System. 
Im Produktionskontext wirft dies eine zentrale Frage auf: Ist es immer notwendig, derart komplexe Modelle einzusetzen? Oder Könnten leichtere Ansätze, die aber ausreichend effizient sind, ausreichen?


IV. Neue Spielplätze für Luminess: Welchen Weg soll man einschlagen?
Für Luminess stellen diese technologischen Fortschritte sowohl Chancen als auch Herausforderungen dar. Es ist klar, dass die Integration von LLMs in IDP die Art und Weise, wie wir an die Dokumentenautomatisierung herangehen, radikal verändern kann. Die Wahl der Technologie hängt jedoch immer von den spezifischen Bedürfnissen unserer Kunden ab.
Beispielsweise könnten bei der Verarbeitung von Standardrechnungen einfache Lösungen wie OCR in Kombination mit intelligenten Layouttechniken Kosten- und Ressourcenbeschränkungen perfekt gerecht werden. Für die Analyse komplexer Verträge, die ein vertieftes Verständnis des rechtlichen Kontextes erfordern, wäre hingegen der Einsatz von LLM gerechtfertigt.


Fazit: Eine Transformation im Gange
Die ICDAR-Konferenz 2024 hat gezeigt, dass die Zukunft der Dokumentenerkennung nicht mehr nur auf die Textextraktion beschränkt ist. Für Luminess geht es darum, die richtige Balance zwischen technologischer Leistung und betrieblichen Einschränkungen zu finden. LLMs bieten enormes Potenzial, müssen aber an die Realitäten der Produktion angepasst werden.
In den kommenden Monaten, Luminess plant den Start eines Pilotprojekts zur Integration von LLMs zur Verarbeitung komplexer Dokumente im Bankensektor, und optimiert gleichzeitig seine bestehenden OCR-Lösungen für eher routinemäßige Aufgaben. Dieser hybride Ansatz ermöglicht es, die Vorteile und Herausforderungen dieser neuen Technologien in einer realen Produktionsumgebung konkret zu bewerten.
Dieses Denken ist das Herzstück zukünftiger Innovationen von Luminess, um die Grenzen von IDP weiter zu erweitern Wir bieten immer effizientere, auf unsere Kunden zugeschnittene Lösungen.

 

Von Tony Bonnet und François Wieckowiak

Teile diesen Artikel