Was ist Optical Character Recognition?

Optical Character Recognition (kurz: OCR) wird zur Texterkennung bzw. optische Zeichenerkennung verwendet. Dabei verwendet OCR künstliche Intelligenz Technologien. Außerdem befasst es sich mit komplizierten Texten und Symbolen, die nicht direkt umgewandelt werden können in Text. OCR spielt insbesondere im Input Management eine wesentliche Rolle, um Dokumente in verschiedene Formate umzuwandeln.

Wie funktioniert OCR?

Zunächst wird der Inhalt eines Dokumentes strukturiert, der Seitenaufbau analysiert sowie verschiedene Inhaltsformate voneinander getrennt. Anschließend werden Zeilen in Wörtern, und die einzelnen Wörter in Buchstaben zerlegt. (Layout Analyse)

Zur tatsächlichen Zeichenerkennung unterscheidet man zwei verschiedene Verfahren:

Feature Matching: Die einzelnen Buchstaben werden anhand von bestimmten Eigenschaften eines Symbols identifiziert. Beispielsweise besteht der Buchstabe A aus zwei schrägen Strichen, die sich oben an einem Punkt berühren und einem horizontalen Strich. Mit diesem Verfahren können daher verschiedene Schriftarten sowie kursive Schriften erkannt werden.

Pattern Matching: Nach und nach vergleicht OCR die Buchstaben mit Mustern, die in einer Datenbank aufgelistet sind. Wenn der eingescannte Buchstabe Ähnlichkeit von 99% zum Muster aufweist, dann identifiziert dieser Algorithmus diesen als den zugehörigen Buchstaben. Im Anschluss werden die Buchstaben wieder zu Wörtern kombiniert und in einem Dokument gespeichert, das zur weiteren Bearbeitung zur Verfügung steht.

Was bei der Datenerfassung mit OCR beachtet werden sollte:

Bei Papierdokumenten sollte diese nicht zerknittert sein, einen starken Kontrast zwischen Inhalt und Hintergrund haben und keine Flecken oder Markierungen haben.

Wenn Dokumente fotografiert werden, sollten die Bilder in einer ordentlichen Qualität sein. Sorgen Sie hier für gute Lichtverhältnisse, eine gute Kamera sowie eine ruhige Hand.

Vorteile der optischen Zeichenerkennung

  • Schnelle Texterfassung im Vergleich zu manuellen Abtippen
  • Geringere Fehleranfälligkeit
  • Zusätzliche Funktionen, z.B. Such- und Bearbeitungsfunktionen von größeren Textmengen

Weitere Anwendungsgebiete von OCR

  • Bei der Verkehrsüberwachung zur Erkennung von Kfz-Kennzeichen
  • In Bibliotheken zur digitalen Archivierung von Beständen
  • Apps, um beispielsweise Kreditkarten einzulesen
  • Übersetzung von Begriffen innerhalb eines Bildes in einer Sprache
  • Elektronische Einzahlung von Schecks ohne die Hilfe eines Bankschalters

Sie haben noch eine Frage zu Optical Character Recognition?

Jetzt nachfragen