Handschriftenerkennung bei der Dokumentenklassifikation und -extraktion

Keine Kommentare

Im Rahmen eines Kundenprojektes bei einem Telekommunikationsunternehmen war die Aufgabenstellung folgende: Die Eingangsbriefpost musste digitalisiert werden. Nach dem Scannen der Dokumente galt es diese zu klassifizieren (z. B. Kündigungen, Beschwerden, Kundenänderungen usw.) und gewisse Daten (z. B. Rufnummer oder Kundennummer) zu extrahieren. Eine große Herausforderung war die Handschriftenerkennug. Denn bei der Analyse der Dokumente stellte sich heraus, dass viele Eingangsbriefe handschriftliche Dokumente waren. Das Verhältnis maschinengeschriebener zu handgeschriebenen Dokumenten war gut 50:50.

Die Problematik für die Erkennungssysteme besteht darin, dass der handschriftliche Fließtext nicht oder nur sehr schwer erkannt werden kann.

Zwar können die gängigen OCR Engines Handschriftenerkennung, aber das begrenzt sich fast ausschließlich auf Zonen in Formularen und hier insbesondere auf die Ziffernerkennung. Hier liefern diese Systeme durchaus brauchbare Ergebnisse. Aber sobald es um reinen Fließtext geht, sinkt die Erkennungsquote gegen null.

Das liegt daran, dass Menschen unterschiedliche Schriftbilder haben. Ein „n“ oder „m“ bei Person A sieht anders aus als bei Person B. Die einzelnen Buchstaben grenzen sich nicht ab. Wo fängt ein Buchstabe an und wo hört er auf? Hinzu kommt noch unterschiedliches Papier. Karierte oder linierte Seiten kommen genauso vor wie normales weißes Papier. Alles Probleme, die es einer Erkennungssoftware sehr schwer machen, mit solchen Texten umzugehen.

Aus diesem Grund mussten wir uns nach einer Lösung umschauen, da ansonsten nur 50 % des täglichen Dokumentenvolumens (maschinengeschriebene Dokumente) ordentlich zu verarbeiten gewesen wären.

Wir möchten Ihnen hier anhand eines Beispiels zeigen, wie man bei solchen schwierigen Belegen dennoch die Vorzüge einer Erkennungssoftware nutzen kann.

Dazu haben wir eine Softwarelösung gefunden, die den handgeschriebenen Text analysiert und in einen maschinengeschriebenen Text übersetzt. Und das in einer sehr hohen Güte.

Allgemeine Vorgehensweise bei der Handschriftenerkennung anhand einer Kündigung

Im Normalfall werden handgeschriebene Dokumente an einem Scanarbeitsplatz eingescannt und anschließend dem Erkennungsprozess (z. B. Kofax Capture oder Paradatec Workflow) zugeführt.

Durch den Scanprozess wird z. B. eine TIF Bilddatei generiert. Die entsprechenden OCR Engines analysieren diese Bilddatei und die Erkennungssysteme nutzen die OCR-Ergebnisse zur Klassifikation und Extraktion. Bei handgeschriebenen Texten ist jedoch die OCR-Komponente nicht in der Lage, Zeichen zu erkennen.

Das bedeutet, wir müssen nach dem Scannen und vor dem Erkennungsprozess eine Komponente integrieren, die aus dem handgeschriebenen Text einen maschinenlesbaren Text erzeugt.

Das möchte ich hier anhand eines Beispielbriefes einmal darstellen. Die Ausgangssituation ist, dass wir die zuvor genannte TIF Bilddatei vorliegen haben. Ziel ist es, die Vertragsnummer 12349763 zu extrahieren und zu erkennen, dass es sich um eine Kündigung handelt.

Verarbeitet man dieses Dokument mit einem Erkennungssystem, ist eine Klassifikation und Extraktion der gewünschten Informationen nicht möglich.

Handschriftenerkennung: Brief

Hier kommt jetzt die Software der Firma Planet zum Einsatz. Diese Software ist spezialisiert auf die Handschriftenerkennung und für diesen Prozess eine perfekte Ergänzung.

Das Dokument wird in einem Prozessschritt vor der eigentlichen Erkennungssoftware analysiert, konvertiert und als PDF (z. B. PDF/A-2a mit Text Layer) bereitgestellt.

Das PDF beinhaltet jetzt zwei Ebenen und ist durchsuchbar. Diese verschiedenen Ebenen im Dokument kann man sich zum Veranschaulichen ein- und ausblenden.

Hier sieht man nur die Ebene des Planet TextLayer:

Planet TextLayer

Mit diesem durchsuchbaren und jetzt maschinenlesbaren Text ist es möglich, durch eine Erkennungssoftware die Klassifikation sowie die Datenextraktion durchzuführen.

Die folgenden Analysen habe ich mit dem Produkt „Prosar-AIDA“ von Paradatec durchgeführt.

Klassifikation

Um das Dokument zu klassifizieren, habe ich Schlagwörter im Regelwerk von AIDA definiert, die für eine Kündigung ausschlaggebend sind. Das sind Schlagwörter wie zum Beispiel „Kündigung“, „kündigen“, „schriftliche Bestätigung“ usw. Die gelb markierten Stellen zeigen mir die gefundenen Schlagwörter an, die zur Klassifikation herangezogen worden sind. Das Ergebnis ist, dass das Dokument als Kündigung klassifiziert wurde.

Handschriftenerkennung: Kündigung

Extraktion der Vertragsnummer

Nach der Klassifikation wird versucht, die achtstellige Vertragsnummer zu extrahieren. Im einfachsten Fall wird die Suche als regulärer Ausdruck ([0-9] [0-9] [0-9] [0-9] [0-9] [0-9] [0-9] [0-9]) hinterlegt. Um aber die Ergebnisse sicherer zu machen, suchen wir nach gewissen Schlagwörtern neben der zu suchenden Nummer. In diesem Fall das Schlagwort „Vertrag“.

Vertragsnummer

Fazit

Der Einsatz dieser Software hat sich in allen Belangen als Vorteil erwiesen. Wir konnten in diesem Kundenprojekt die automatisierte Verarbeitung um 20-25 % steigern und die manuelle Nachkorrektur senken.

Neben Dokumenten, die komplett handschriftlich geschrieben sind, lohnt sich ebenfalls der Einsatz bei Formularen, die hand- und maschinengeschriebenen Anteil haben.

Thomas Bergmann

Thomas Bergmann unterstützt unsere Kunden bei der Erfassung von Eingangsdokumenten, deren Klassifikation samt Datenextraktion und anschließendem Starten der Geschäftsprozesse. Ein weiterer Schwerpunkt ist die Betreuung unserer Kunden während und nach der Projektphase als zentraler Ansprechpartner.

Über 1.000 Abonnenten sind up to date!

Die neuesten Tipps, Tricks, Tools und Technologien. Jede Woche direkt in deine Inbox.

Kostenfrei anmelden und immer auf dem neuesten Stand bleiben!
(Keine Sorge, du kannst dich jederzeit abmelden.)

Hiermit willige ich in die Erhebung und Verarbeitung der vorstehenden Daten für das Empfangen des monatlichen Newsletters der codecentric AG per E-Mail ein. Ihre Einwilligung können Sie per E-Mail an datenschutz@codecentric.de, in der Informations-E-Mail selbst per Link oder an die im Impressum genannten Kontaktdaten jederzeit widerrufen. Von der Datenschutzerklärung der codecentric AG habe ich Kenntnis genommen und bestätige dies mit Absendung des Formulars.

Kommentieren

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.