Handschriftenerkennung bei der Dokumentenklassifikation und -extraktion

29.3.2020 | 3 Minuten Lesezeit

Im Rahmen eines Kundenprojektes bei einem Telekommunikationsunternehmen war die Aufgabenstellung folgende: Die Eingangsbriefpost musste digitalisiert werden. Nach dem Scannen der Dokumente galt es diese zu klassifizieren (z. B. Kündigungen, Beschwerden, Kundenänderungen usw.) und gewisse Daten (z. B. Rufnummer oder Kundennummer) zu extrahieren. Eine große Herausforderung war die Handschriftenerkennug. Denn bei der Analyse der Dokumente stellte sich heraus, dass viele Eingangsbriefe handschriftliche Dokumente waren. Das Verhältnis maschinengeschriebener zu handgeschriebenen Dokumenten war gut 50:50.

Die Problematik für die Erkennungssysteme besteht darin, dass der handschriftliche Fließtext nicht oder nur sehr schwer erkannt werden kann.

Zwar können die gängigen OCR Engines Handschriftenerkennung, aber das begrenzt sich fast ausschließlich auf Zonen in Formularen und hier insbesondere auf die Ziffernerkennung. Hier liefern diese Systeme durchaus brauchbare Ergebnisse. Aber sobald es um reinen Fließtext geht, sinkt die Erkennungsquote gegen null.

Das liegt daran, dass Menschen unterschiedliche Schriftbilder haben. Ein „n“ oder „m“ bei Person A sieht anders aus als bei Person B. Die einzelnen Buchstaben grenzen sich nicht ab. Wo fängt ein Buchstabe an und wo hört er auf? Hinzu kommt noch unterschiedliches Papier. Karierte oder linierte Seiten kommen genauso vor wie normales weißes Papier. Alles Probleme, die es einer Erkennungssoftware sehr schwer machen, mit solchen Texten umzugehen.

Aus diesem Grund mussten wir uns nach einer Lösung umschauen, da ansonsten nur 50 % des täglichen Dokumentenvolumens (maschinengeschriebene Dokumente) ordentlich zu verarbeiten gewesen wären.

Wir möchten Ihnen hier anhand eines Beispiels zeigen, wie man bei solchen schwierigen Belegen dennoch die Vorzüge einer Erkennungssoftware nutzen kann.

Dazu haben wir eine Softwarelösung gefunden, die den handgeschriebenen Text analysiert und in einen maschinengeschriebenen Text übersetzt. Und das in einer sehr hohen Güte.

Allgemeine Vorgehensweise bei der Handschriftenerkennung anhand einer Kündigung

Im Normalfall werden handgeschriebene Dokumente an einem Scanarbeitsplatz eingescannt und anschließend dem Erkennungsprozess (z. B. Kofax Capture oder Paradatec Workflow) zugeführt.

Durch den Scanprozess wird z. B. eine TIF Bilddatei generiert. Die entsprechenden OCR Engines analysieren diese Bilddatei und die Erkennungssysteme nutzen die OCR-Ergebnisse zur Klassifikation und Extraktion. Bei handgeschriebenen Texten ist jedoch die OCR-Komponente nicht in der Lage, Zeichen zu erkennen.

Das bedeutet, wir müssen nach dem Scannen und vor dem Erkennungsprozess eine Komponente integrieren, die aus dem handgeschriebenen Text einen maschinenlesbaren Text erzeugt.

Das möchte ich hier anhand eines Beispielbriefes einmal darstellen. Die Ausgangssituation ist, dass wir die zuvor genannte TIF Bilddatei vorliegen haben. Ziel ist es, die Vertragsnummer 12349763 zu extrahieren und zu erkennen, dass es sich um eine Kündigung handelt.

Verarbeitet man dieses Dokument mit einem Erkennungssystem, ist eine Klassifikation und Extraktion der gewünschten Informationen nicht möglich.

Hier kommt jetzt die Software der Firma Planet zum Einsatz. Diese Software ist spezialisiert auf die Handschriftenerkennung und für diesen Prozess eine perfekte Ergänzung.

Das Dokument wird in einem Prozessschritt vor der eigentlichen Erkennungssoftware analysiert, konvertiert und als PDF (z. B. PDF/A-2a mit Text Layer) bereitgestellt.

Das PDF beinhaltet jetzt zwei Ebenen und ist durchsuchbar. Diese verschiedenen Ebenen im Dokument kann man sich zum Veranschaulichen ein- und ausblenden.

Hier sieht man nur die Ebene des Planet TextLayer:

Mit diesem durchsuchbaren und jetzt maschinenlesbaren Text ist es möglich, durch eine Erkennungssoftware die Klassifikation sowie die Datenextraktion durchzuführen.

Die folgenden Analysen habe ich mit dem Produkt „Prosar-AIDA“ von Paradatec durchgeführt.

Klassifikation

Um das Dokument zu klassifizieren, habe ich Schlagwörter im Regelwerk von AIDA definiert, die für eine Kündigung ausschlaggebend sind. Das sind Schlagwörter wie zum Beispiel „Kündigung“, „kündigen“, „schriftliche Bestätigung“ usw. Die gelb markierten Stellen zeigen mir die gefundenen Schlagwörter an, die zur Klassifikation herangezogen worden sind. Das Ergebnis ist, dass das Dokument als Kündigung klassifiziert wurde.

Extraktion der Vertragsnummer

Nach der Klassifikation wird versucht, die achtstellige Vertragsnummer zu extrahieren. Im einfachsten Fall wird die Suche als regulärer Ausdruck ([0-9] [0-9] [0-9] [0-9] [0-9] [0-9] [0-9] [0-9]) hinterlegt. Um aber die Ergebnisse sicherer zu machen, suchen wir nach gewissen Schlagwörtern neben der zu suchenden Nummer. In diesem Fall das Schlagwort „Vertrag“.

Fazit

Der Einsatz dieser Software hat sich in allen Belangen als Vorteil erwiesen. Wir konnten in diesem Kundenprojekt die automatisierte Verarbeitung um 20-25 % steigern und die manuelle Nachkorrektur senken.

Neben Dokumenten, die komplett handschriftlich geschrieben sind, lohnt sich ebenfalls der Einsatz bei Formularen, die hand- und maschinengeschriebenen Anteil haben.

War dieser Beitrag hilfreich?

Beitrag teilen

Gefällt mir

Blog-Autor*in

Thomas Bergmann

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Dein Job bei codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

ChatGPT im Alltag eines Python-Entwicklers

Seit einigen Tagen spiele ich mit ChatGPT herum. Beruflich und privat konnte ich damit einige Fragen bearbeiten, bspw. welche Alternativen es zu bestimmten Tools gibt, was Vorteile von Teilzeit für den Arbeitgeber sind oder wer ich bin. Leider weiß ChatGPT...

NLP
Python
Künstliche Intelligenz

27.1.2023 | 7 Minuten Lesezeit

Robert Meißner

Mit wenigen Zeilen Code Titel und Vorschaubild generieren

Ich bin ein fauler Mensch. Und ich schreibe viel, u. a. beruflich und privat in Blogs, auf Twitter und auf Wissenschaftsseiten. Das Schreiben per se ist schön. Aber wenn ich mir Titel überlegen muss oder gar Schlagwörter, dann ist der Spaß vorbei. Noch...

11.10.2022 | 7 Minuten Lesezeit

Robert Meißner

Auslesen von deutschen Empfängeradressen mit Kofax Transformation Modules...

Das Auslesen von Adress-/Anschriftbereichen in Briefen war schon immer eine recht schwierige Problematik. Die Freude war umso größer, als Kofax vor einigen KTM-Versionen (Kofax Transformation Modules ) ein Werkzeug (Adress-Lokator) für das automatisierte...

NLP
Archivierung

7.3.2022 | 6 Minuten Lesezeit

Jürgen Voss

Natural Language Processing: Erweiterungen mit KTM 6.4

Im Frühjahr 2020 erhielt das Produkt Kofax Transformation Modules (KTM) mit dem Service Pack 6.3.1 ein neues Modul: Natural Language Processing (NLP). Natural Language Processing versucht, den Text des Dokuments zu analysieren, Wörter und deren Beziehungen...

Content Management
Archivierung
NLP

15.4.2021 | 2 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules: Natural Language Processing, Stimmungen ...

Kofax Transformation Modules (KTM) bietet diverse Werkzeuge, um Dokumente zu klassifizieren und Daten zu extrahieren. Diese Werkzeuge wurden bereits in früheren Blog-Artikeln erläutert:– Dokumentenklassifizierung – Datenextraktion mit Format-Lokatoren...

Content Management
NLP
Archivierung

16.3.2020 | 7 Minuten Lesezeit

Jürgen Voss

Dokumentenklassifikation, Datenextraktion und der ganze Rest…

Im Laufe der Zeit gab es im codecentric-Blog viele Beiträge, die Dokumentenklassifikation und Datenextraktion zum Thema hatten. In diesem Beitrag möchte ich diese Artikel nochmal in einen Zusammenhang stellen und auf Neuerungen bei den älteren Beiträ...

Content Management
NLP
Archivierung

20.8.2019 | 7 Minuten Lesezeit

Jürgen Voss

Orientierungsprobleme bei der Dokumentenerkennung (Kofax Transformation...

Bei der intelligenten Dokumentenklassifizierung und Datenextraktion von Eingangspost in Unternehmen müssen die Eingangskanäle Papier, Email und Fax berücksichtigt werden. Normalerweise ist die Orientierung der digitalisierten Dokumente (0°, 90°, 180°...

Content Management
NLP
Archivierung

7.7.2019 | 3 Minuten Lesezeit

Jürgen Voss

codecentric.AI Bootcamp ist online!

Im letzten Jahr haben wir bei codecentric eine AI-Initiative gestartet. Wir haben uns zum Ziel gesetzt, einen Online-Kurs zum Thema Machine Learning und künstliche Intelligenz in deutscher Sprache zu entwickeln. Natürlich gibt es bereits mehrere sehr...

Computer Vision
Künstliche Intelligenz
NLP

26.5.2019 | 4 Minuten Lesezeit

Oliver Moser

Natural Language Processing — Einsteigen und loslegen!

1 Worum geht es?Ob Suchmaschinen, Spamfilter, Chatbots oder Sprachassistenten wie Siri und Alexa — Computer verarbeiten immer mehr Sprache mit immer besserer Genauigkeit und dringen damit immer weiter in unseren Alltag vor. Dahinter stecken anspruchsvolle...

Künstliche Intelligenz
Machine Learning
Python
NLP
Data

7.3.2019 | 11 Minuten Lesezeit

Thomas Timmermann

Introduction of and first steps in Kofax Total Agility

Kofax Total Agility (KTA) is one and probably the leading product in the First Mile™ strategy of Kofax. This strategy implies a simplification and improvement of the first steps of a business case. You can see KTA as a versatile workflow platform which...

Content Management
Archivierung

8.7.2017 | 10 Minuten Lesezeit

Daniel Brodka

Computer-Vision-Techniken in Kofax Transformation Modules (KTM/KTD)

„Computer Vision“ ist eines der wichtigsten, aktuellen Themen in der IT. Überall in modernen Systemen kommt diese Technologie zum Einsatz – sei es in den genialen Autos von Tesla („Object Detection“ für Hindernisse, andere Verkehrsteilnehmer, Straßenschilder...

Data
NLP
Softwareentwicklung
Computer Vision
Archivierung
Künstliche Intelligenz

11.4.2017 | 3 Minuten Lesezeit

Niko Blättermann

Topic Modeling der codecentric Blog-Artikel

Der größte Teil von Big Data sind unstrukturierte Daten. Wenn eine Organisation ihre oder externe Daten von sozialen Medien mit dem Ziel besserer Geschäftsentscheidungen nutzbar machen möchte, so besteht eine Herausforderung darin aus unstrukturierten...

NLP
Python
Machine Learning

3.1.2017 | 15 Minuten Lesezeit

Matthias Radtke

Kofax Transformation Modules (KTM): ‚Freiformerkennung‘ für handschriftliche...

Freiformerkennung versucht im Gegensatz zur formularbasierten Erkennung, bestimmte Werte wie etwa eine Versicherungsnummer, irgendwo auf einem Dokument zu finden. Hilfreich dabei ist immer eine bestimmte Struktur des gesuchten Wertes, der dann meist ...

NLP
Archivierung

19.7.2015 | 3 Minuten Lesezeit

Jürgen Voss

IBM Content Collector for SAP (formerly known as IBM CommonStore for SAP...

IBM Content Collector for SAP (kurz ICC/SAP) ist die Verbindung zwischen SAP ERP-Systemen und den von IBM angebotenen Archivierungslösungen IBM Content Manager, On Demand und TSM. SAP stellt eine Standardschnittstelle zur Anbindung von externen Archivsystemen...

Content Management
NLP
Archivierung

22.7.2014 | 5 Minuten Lesezeit

Jürgen Voss

Automatisierter Modulimport für OpenCms

In einem unserer Projekte verwenden wir seit langer Zeit OpenCms als Redaktionssystem, ergänzt um ein Backend zur Realisierung von Fachlogik. Da wir agil arbeiten, haben wir natürlich auch den Anspruch, agil zu testen. Erste Maßnahme in Sprint 1 des ...

CI/CD
Content Management

15.4.2010 | 5 Minuten Lesezeit

Robert Spielmann

codecentric @ W-Jax 2008, Tag 2, 05.11.2008

Heute ist der zweite Konferenztag auf der W-Jax 2008 , der führenden Konferenz für umfassendes Know-how im Java-Umfeld. Die Konferenz, die sich an Softwareentwickler, Projektleiter und Architekten richtet, beschäftigt sich mit den wichtigsten Aspekten...

Framework
BPM
Java
Community
Content Management
Open Source
Frontend
Softwarearchitektur
Spring
Validierung
Webdevelopment

7.11.2008 | 3 Minuten Lesezeit

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.

Absenden

Handschriftenerkennung bei der Dokumentenklassifikation und -extraktion

Allgemeine Vorgehensweise bei der Handschriftenerkennung anhand einer Kündigung

Klassifikation

Extraktion der Vertragsnummer