Intelligente Kombination von OCR-Engines: Schwarmintelligenz für zuverlässige Texterkennung

Statt auf eine einzelne OCR-Engine zu setzen, verfolgen wir den Ansatz, die Stärken mehrerer OCR-Technologien zu kombinieren. Das Ergebnis ist ein innovatives, intelligentes System, das die Erkennungsquote signifikant steigert und selbst in anspruchsvollen Szenarien zuverlässige Resultate liefert.

Texterkennung – auch Optical Character Recognition (OCR) genannt – ist eine Schlüsseltechnologie in vielen modernen Anwendungen: von der Digitalisierung von Dokumenten über die Verarbeitung von Formularen bis hin zur automatisierten Analyse von Bildern und Videos. Doch trotz jahrzehntelanger Forschung ist OCR bis heute keine „exakte Wissenschaft“. Besonders bei schwierigen Ausgangsdaten – unscharfen Bildern, schlechten Kontrasten oder komplexen Hintergründen – stößt jede einzelne OCR-Engine an ihre Grenzen.

Unsere Motivation: Warum eine einzelne Engine nicht genügt

OCR-Systeme – auch Engines genannt – unterscheiden sich nicht nur in ihrer Grundarchitektur, sondern auch in ihren Schwerpunkten und Stärken. Während manche Engines bei klar strukturierten Texten nahezu fehlerfrei arbeiten, zeigen andere ihre Vorteile bei handschriftlichen Notizen oder stark verrauschten Bildern. Hinzu kommt, dass auch Vorverarbeitungsschritte wie Hintergrundentfernung, Schärfefilter oder Kontrastanpassung eine große Rolle spielen.

Doch diese Vorverarbeitung ist ein zweischneidiges Schwert, denn ein niedriger Threshold kann unscharfe Aufnahmen zwar retten, lässt aber bei scharfen Bildern feine Details verschwinden. Und eine Hintergrund-Entfernung verbessert oft die Lesbarkeit, kann aber bei kontrastarmen Texten zu Informationsverlust führen.

Die zentrale Erkenntnis lautet daher: Es gibt nicht die eine perfekte Engine oder den einen idealen Vorverarbeitungsschritt, der in allen Szenarien funktioniert.

Unsere Lösung: Schwarmintelligenz statt Einzelkämpfer

Um diese Herausforderung zu lösen, setzen wir in unserer neuesten formstar® Version 8 auf einen Ansatz, der aus der Natur bekannt ist: Schwarmintelligenz. Die Idee dahinter ist simpel, aber effektiv. Wenn jede Engine mit einer Wahrscheinlichkeit von 50 % richtig arbeitet, sinkt die Wahrscheinlichkeit, dass zehn Engines gleichzeitig scheitern, auf nur 0,09 %. Durch die Kombination unterschiedlicher Engines und Vorverarbeitungsvarianten erhöhen wir also die Robustheit des Gesamtsystems drastisch.

Unsere Lösung umfasst:

  • Mehrere OCR-Engines (u. a. Azure OCR, OPENTEXT, Florence2, EasyOCR, Tesseract sowie eine eigens entwickelte Engine).
  • Unterschiedliche Vorverarbeitungen mit variablen Parametern, die je nach Bildmaterial optimal eingesetzt werden.
  • Eine Meta-KI, die aus den Ergebnissen aller Engines eine finale, verlässliche Prediction ableitet.
  • Eine Anomalie-Erkennungs-KI, die unsichere Ergebnisse erkennt, markiert und so maximale Transparenz schafft.

Unsere Umsetzung: Von der Variation zur Meta-KI

Der Entwicklungsprozess ist mehrstufig und hochgradig automatisiert:

  1. Generierung von Varianten
    Für ein definiertes Testdatenset werden sämtliche denkbaren Vorverarbeitungen und Engine-Kombinationen erstellt.
  2. Einsatz verschiedener Engines
    Neben etablierten Lösungen setzen wir auch eine maßgeschneiderte, eigens trainierte Engine ein:
    • Ein Convolutional Neural Network (CNN) auf Basis von PyTorch.
    • Speziell optimiert auf unser Anwendungsfeld (Ziffernerkennung von 0–9, Sonderzeichen wie X oder Kreise).
    • Vorteil: gezielte Anpassung an das aktuelle Problemfeld, wo Standard-Engines oft schwächeln.
  3. Selektion optimaler Kombinationen
    Statt nur die besten Einzel-Engines auszuwählen, suchen wir gezielt nach Kombinationen, die sich gegenseitig ergänzen. So werden Stärken gebündelt und Schwächen ausgeglichen.
  4. Training der Meta-KI
    Die Meta-KI wird mit den Ergebnissen aller Engines trainiert und lernt, die wahrscheinlichste und zuverlässigste Vorhersage zu treffen.
  5. Anomalie-Erkennung
    Eine zusätzliche KI erkennt unsichere Predictions und markiert sie transparent. So bleibt der gesamte Prozess nachvollziehbar.
  6. Genetischer Algorithmus zur Optimierung
    Alle Engine-Varianten durchlaufen einen evolutionären Prozess:
    • Kombination und Mutation von Parametern.
    • Eliminierung der schwächsten Varianten.
    • Wiederholung des Zyklus bis zur optimalen Lösung.

Das Ergebnis ist eine automatische, selbstoptimierende Pipeline, die nicht nur die Erkennungsqualität maximiert, sondern auch detaillierte Analysen ohne manuellen Aufwand ermöglicht.


Formstar-Ergebnisse: Nahezu perfekte Erkennungsquote

Die Resultate in formstar® 8.0 sprechen für sich:

  • Erkennungsquote von nahezu 99 % selbst bei sehr schwierigen Daten.
  • Transparenz durch automatische Analyse und Confidence-Bewertungen.
  • Robustheit gegenüber unterschiedlichsten Eingaben und Bildqualitäten.

Da diese Berechnungen äußerst ressourcenintensiv sind, wird das System auf speziell konzipierten Hochleistungs-Clustern mit GPU-Unterstützung ausgeführt. Damit ist sichergestellt, dass auch große Datenmengen effizient und zuverlässig verarbeitet werden können.


Fazit und Ausblick

Mit unserem Ansatz haben wir gezeigt, dass die Kombination verschiedener OCR-Engines und Vorverarbeitungen nicht nur eine theoretische Idee ist, sondern in der Praxis enorme Vorteile bietet. Durch den Einsatz von Meta-KI, Anomalie-Erkennung und genetischen Optimierungsverfahren in formstar® 8 erreichen wir eine Erkennungsgenauigkeit, die deutlich über dem liegt, was einzelne Engines leisten können.

Für die Zukunft planen wir, dieses System noch stärker zu individualisieren – beispielsweise durch domänenspezifische Anpassungen für Branchen wie Finanzen, Gesundheitswesen oder Industrie. Damit eröffnen wir Unternehmen die Möglichkeit, ihre Datenverarbeitung auf ein neues Niveau an Genauigkeit, Transparenz und Zuverlässigkeit zu heben.