Dokumentenklassifikation, Datenextraktion und der ganze Rest…

Keine Kommentare

Im Laufe der Zeit gab es im codecentric-Blog viele Beiträge, die Dokumentenklassifikation und Datenextraktion zum Thema hatten. In diesem Beitrag möchte ich diese Artikel nochmal in einen Zusammenhang stellen und auf Neuerungen bei den älteren Beiträgen hinweisen.

Da wir bei der codecentric im Bereich Digital Integration sehr viel mit den Produkten Kofax Capture / Kofax Transformation Modules und Kofax Total Agility arbeiten, nimmt ein großer Teil der aufgeführten Beiträge Bezug auf diese Produkte.

Die aufgeführten Beiträge entstanden unabhängig voneinander im Laufe der letzten Jahre. Der Übersichtlichkeit halber, habe ich versucht die Artikel in zusammenhängende Bereiche zusammenzufassen:

  • Allgemeine Vorgehensweisen
  • Berichte aus der Praxis / Success Story
  • Tipps und Tricks
  • Neueste Trends
  • Die Basis von allem
  • Was es sonst noch gab

Allgemeine Vorgehensweisen

Unabhängig von bestimmten Projekten beleuchten diese Artikel allgemeine Vorgehensweisen bei Kundenprojekten zur Dokumentenklassifikation/Datenextraktion.

Christian Böhnel hat bereits im Jahre 2010 eine Klassiker verfasst, der die Themen Messbarkeit der Erkennungsleistung und Dunkelverarbeitung von Dokumenten beinhaltet. Die dort angesprochene Vorgehensweise ist auch heute noch genauso aktuell wie damals:

Wieviel Erkennung braucht Dunkelverarbeitung?

Basis einer Verarbeitung von Eingangsdokumenten ist fast immer die Klassifikation der Dokumente in Dokumentenklassen. Die zu extrahierenden Daten sind ja meist je Dokumentenklasse verschieden. Der folgende Artikel erläutert die in Kofax Transformation Modules vorhandenen Klassifikationswerkzeuge:

Dokumentenklassifizierung mit Kofax Transformation Modules (KTM)

Künstliche Intelligenz, neuronale Netze und maschinelles Lernen sind aktuelle Techniken in dem hier besprochenen Umfeld. Kofax Transformation Modules setzt diese schon seit Jahren ein und liefert mit jedem Release aktualisierte und neue Werkzeuge:

Kofax Transformation Modules (KTM), KI und maschinelles Lernen

Berichte aus der Praxis

Die folgenden Blog-Beiträge entstanden aus Projektsituationen bei Kunden. Sie handeln von Details beim Bearbeiten von SEPA-Mandaten bis hin zu einer Success Story der Provinzial Nordwest über den Einsatz der KTM-KI-Komponenten zur Automatisierung von Versicherungsprozessen.

Bei einem unserer Kunden erfolgt die Verarbeitung eingehender SEPA-Mandate automatisch oder manuell, je nachdem ob in einer bestimmten Region des Formulars handschriftliche Ergänzungen vorgenommen wurden. Hier wird erklärt mit welchen Werkzeugen KTM dies handschriftlichen Ergänzungen erkennn kann:

Kofax Transformation Modules: SEPA-Mandate und handschriftliche Ergänzungen – oder: wer hat etwas auf mein Formular gekritzelt?

Ein bei jedem Projekt zu diskutierenden Punkt ist das Thema „Dunkelverarbeitung“. Zu Projektbeginn versteht meist jeder etwas anderes darunter, und man muss zunächst zu einem gemeinsamen Verständnis kommen. Die unterschiedlichen Sichtweisen werden im folgenden Artikel erläutert:

KTM im Versicherungseinsatz: Heller, grauer und dunkler Posteingang

Ziel eines Erkennungsprozesses ist die möglichst automatische Verarbeitung der Belege. Hier bieten sich häufig eingehende Kündigungsschreiben an, da dort fast immer das Kündigungsdatum in irgendeiner Form erwähnt wird. Welche Probleme dabei in der Praxis auftreten und wie diese mit KTM-Mitteln gelöst werden können, wird hier beschrieben:

Unterstützung eines automatisierten Kündigungsprozesses mit Kofax KTM

Das folgende war ursprünglich als Blog-Artikel geplant, ist dann aber in Zusammenarbeit mit unserem Kunden zu einer Sucess Story geworden. Die Provinzial Nordwest setzt schon seit einigen Jahren für die Posteingangsverarbeitung Kofax Capture und Kofax Transformation Modules ein. Im Rahmen der Prozessautomatisierung wurden dann die KI-Komponenten von Kofax Transformation Modules zur Automatisierung verschiedener Versicherungsprozesse genutzt:

Automatisierung von Versicherungsprozessen mit Künstlicher Intelligenz (KI) (Success Story Provinzial Nordwest)

Tipps und Tricks

In fast jedem Kundenprojekt gibt es die „kleinen“ Probleme, die sich mit den Standardwerkzeugen nicht so ohne weiteres lösen lassen. Dann ist Ideenreichtum gefragt, um möglichst ohne andere externe Produkte eine Lösung zu finden. Hier folgt eine Sammlung von Tipps und Tricks, die so entstanden sind.

Scan- und Erkennungssoftware versucht häufig die erfassten Seiten „richtig“ auszurichten, so dass sie ohne weitere manuelles Drehen lesbar sind. Manchmal scheitert diese Automatik, da insbesondere bei Faxen manchmal Texte 90° oder 180° gedreht zum Haupttext erscheinen. Wie man diese Dokumente trotzdem automatisiert „richtig“ ausrichten kann, beschreibt der folgende Artikel:

Orientierungsprobleme bei der Dokumentenerkennung (Kofax Transformation Modules)

KTM bietet die Möglichkeit, mit sogenannten Wörterbüchern zu arbeiten. Sucht man mit regulären Ausdrücken beispielsweise nach einem Datum, kann dieses in verschiedenen Formaten auf den Dokumenten erscheinen: 01.09.2019 oder 01. September 2019 usw. In einem Wörterbuch (eine einfache Textdatei) kann man nun z. B. alle Monatsnamen und deren Abkürzungen eintragen und dieses Wörterbuch im regulären Ausdruck referenzieren. Dies spart einerseits Tipparbeit bei der Definition des regulären Ausdrucks und andererseits kann man Wörterbücher unabhängig vom KTM-Projekt verändern. Manchmal ergibt sich der Wunsch, dass man im Projekt per Skripting etwas im Wörtbuch suchen möchte. Dies kann folgendermaßen realisiert werden:

Kofax Transformation Modules (KTM) – Suche per Skript in Wörterbüchern

Der folgende Tipp ist inzwischen hinfällig und nur noch für KTM Version 5 oder niedriger sinnvoll. In Maschinenschrift gedruckte Daten können leicht mittels Freiformerkennung ausgelesen werden. Das war bei handschriftlichen Daten nicht immer möglich, da die Ganzseiten-OCR-Engines auf Maschinenschrift optimiert waren. Der Artikel erläutert, wie man damals trotzdem mit der Freiformerkennung Handschriftliches erkennen konnte. Mit KTM 5.5 kam dann die „gemischte Schrift“-OCR-Ganzseitenerkennung, die sowohl Maschinen- als auch Handschrift auf einer Seite erkennt.

Kofax Transformation Modules (KTM): „Freiformerkennung“ für handschriftliche Nummern

Die Allzweckwaffe der Auslesewerkzeuge von KTM sind die sogenannten Formatlokatoren. Die beiden unten aufgeführten Artikel bieten eine Einführung in die Nutzung dieser Freiformerkennungswerkzeuge:

Kofax Transformation Modules – Formatlokatoren und dynamische reguläre Ausdrücke
Kofax Transformation Modules – Formatlokatoren und dynamische reguläre Ausdrücke – Teil 2

KTM ist sehr gut darin Informationen aus strukturierten und unstrukturierten Dokumenten auszulesen. Manchmal steht man aber vor dem Problem nicht nur Daten sondern auch Objekte auf Bildern erkennen zu müssen. Der folgende Artikel von Niko Blättermann zeigt, wie man KTM um diese Fähigkeiten erweitern kann:

Computer-Vision-Techniken in Kofax Transformation Modules (KTM/KTD)

Neueste Trends

Kofax Capture und Kofax Transformation Modules sind seit Jahren Basis vieler Erfassungslösungen und Kofax ist der Marktführer auf diesem Gebiet. Um auch für zukünftige erweiterte Anforderungen vorbereitet zu sein, gibt es seit einiger Zeit das Produkt Kofax Total Agility. Vereinfacht ausgedrückt beinhaltet dieses Produkt Kofax Capture, Kofax Transformation Modules und Kofax Import Connector eingebettet in eine vielseitige Workflow-Engine. Daniel Brodka erläutert die weitreichenden Fähigkeiten von KTA in diesem Artikel:

Einführung und erste Schritte in Kofax Total Agility

Eine aktuelle Technik, die immer größere Verbreitung findet, ist die sogenannte Robot Process Automation (RPA). Kofax stellt mit dem Produkt Kapow eine Plattform für die Verarbeitung von Daten von strukturierten oder unstrukturierten Datenbanken, Dateien, E-Mail-Systemen, Webseiten, Portalen und sogar älteren Mainframe-Systemen oder Terminal-Emulationen bereit, die sich perfekt in die vorhandene Lösungen einfügt. Kofax Kapow hat zwischenzeitlich den Namen geändert und heißt nun Kofax RPA. Stefan Blank hat die Möglichkeiten von Kofax RPA/Kapow anhand eines Beispiel-Robots sehr schön zusammengefasst:

Robotic Process Automation mit Kofax Kapow™

Die Basis von allem

Die erfolgreiche Erfassungslösung von Kofax ist Kofax Capture, und mit ihr kann man auch ganz ohne KTM eine Menge erreichen. Wie das geht und was man alles mit eigenen Erweiterungen erreichen kann, zeigt Stefan Blank in diesem sehr schönen Grundlagenartikel über die Erweiterungsmöglichkeiten von Kofax Capture:

Kofax Capture – Erweiterungsmöglichkeiten jenseits des Standards

In einem weiteren Artikel über Erweiterungen zu Kofax Capture erklärt Stefan Blank, wie man das Scan-Modul an projektspezifische Bedürfnisse anpassen kann:

Kofax Capture erweiterte Scan Api: Eine erste Annäherung

Kofax Capture bietet u. a. eine Möglichkeit, die erkannten Daten zu validieren und auch weitere Daten einzugeben. Dies wird im Validierungsmodul durchgeführt. Dort steht den Entwicklern eine Skriptsprache zur Verfügung, um das Validiermodul den Projektgegebenheiten individuell anzupassen. Diese Skriptsprache war viele Jahre das SB-Basic, welches in etwa dem Visual Basic der 90er Jahre entspricht. Doch seit einigen Jahren ist es auch möglich dort wahlweise mit .NET (VB, C#) zu entwickeln. Der folgende Artikel beschreibt, was man beachten muss, wenn man von SBL zu .NET wechseln möchte:

Kofax Capture Validierungsskripte – Von SBL zu VB.NET für Dummies

Ein weit verbreiteter Trennungsmechanismus für Dokumente sind Barcodes, die entweder als Aufkleber auf der ersten Dokumentenseite aufgebracht oder als Trennblatt vor der ersten Dokumentenseite eingelegt werden. Die Trennung mit Barcodes funktioniert generell sehr gut. Allerdings hat sich als Problem herausgestellt, dass manchmal „Fremd-Barcodes“, die bereits auf den Dokumentseiten aufgedruckt waren, dann auch als Trennbarcodes erkannt wurden. Damit ist dann natürlich die Dokumentenstruktur zerstört. Aber auch dafür gibt es Abhilfe:

Kofax Capture – Dokumententrennung mit Barcodes

Was es sonst noch gab

Neben den oben aufgelisteten Artikel über Erfassung, Klassifikation und Extraktion, erschienen im codecentric-Blog auch einige Artikel die andere Aspekte in diesem Umfeld beleuchteten.

CenterDevice ist ein Cloud-basiertes professionelles Dokumentenmanagement- und Online-Collaboration-System. CenterDevice wird von unseren Kunden häufig als Zielsystem für die Weiterverarbeitung/Ablage der erfassten Dokumente eingesetzt. Die beiden unten aufgeführten Artikel zeigen, wie sich Kofax Capture und CenterDevice ohne großen Aufwand integrieren lassen:

CenterDevice und Kofax Capture – Integration out of the box
CenterDevice und CenterScan – Scannen, Erkennen und sichere Ablage

Ich hoffe, die Aufbereitung und Einsortierung der diversen Blog-Artikel hat das gesamte Thema Erfassung, Klassifikation und Datenextraktion etwas übersichtlicher für den Leser gemacht. Für Fragen oder Anregungen steht unten die Kommentarfunktion zur Verfügung. Wir freuen uns über jede Anmerkung!

Voss Jürgen

Jürgen Voss unterstützt unsere Kunden bei der Erfassung von Eingangsdokumenten, deren Klassifikation samt Datenextraktion und anschließendem Starten der Geschäftsprozesse.

Die erfassten Dokumente werden dabei in Dokumentenmanagement-systemen wie CenterDevice oder Archivsystemen sicher abgelegt. Dazu zählt auch die E-Mail-Archivierung und die Ablage über die SAP-Archivierungsschnittstelle ArchiveLink.

Kommentieren

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.