SPRACHE

Dokumentenklassifizierung mit Kofax Transformation Modules (KTM)

22.3.2013 | 6 Minuten Lesezeit

Viele unserer Kunden setzen Systeme zur automatischen Dokumentenklassifikation und Datenextraktion ein. Eines dieser Systeme ist das Kofax Produkt ‚Kofax Transformation Modules‘ (KTM). Diese Dokumenten-Erkennungssysteme ermitteln die Metadaten aus elektronischen Bildern (die gescannten Seiten der zu verarbeitenden Dokumente, Faxe oder eMails) und übergeben die Daten an ein nachgelagertes System (z.B. an eine Postkorbanwendung).

In diesem Artikel in der Reihe der KTM-Blogs möchte ich die verschiedenen Möglichkeiten erläutern, die KTM zur Klassifizierung von Dokumenten bietet.

Die bisher erschienenen KTM-Artikel über Formatlokatoren finden Sie hier:

Kofax Transformation Modules – Formatlokatoren und dynamische reguläre Ausdrücke – Teil 1
Kofax Transformation Modules – Formatlokatoren und dynamische reguläre Ausdrücke – Teil 2

Bevor Daten aus einem Dokument extrahiert werden können, muss ein System zunächst wissen, um welche Art Dokument es sich handelt. Aus einer Rechnung müssen beispielsweise andere Daten extrahiert werden, als aus einem Versicherungsvertrag. Bei der Rechnung will man typischerweise die Rechnungsnummer, das Rechnungsdatum, den Lieferanten und die Beträge extrahieren, wohingegen bei dem Versicherungsdokument die Werte Versicherungsnummer und Versicherungssparte von Interesse sind.

Vor der eigentlichen Extraktion muss also zunächst bestimmt werden, welche Art von Dokument vorliegt. Dies wird bei KTM durch die vor der Extraktion stattfindende Klassifikation durchgeführt. Sobald ein Dokument klassifiziert wurde, können dann die passenden Metadaten extrahiert werden.

Die Klassifikation eines Dokuments kann durch KTM mit verschiedenen Methoden durchgeführt werden, die sich in der Komplexität und im Aufwand für die Dokumentenvorbereitung unterscheiden:

1. Layoutklassifikation

Bei dieser Klassifikationsart versucht das System die Art des Dokuments anhand des grafischen Aufbaus zu bestimmen. Dieses Vorgehen ist die schnellste Art der Klassifizierung, da hierzu keinerlei OCR-Erkennung notwendig ist, da zur Klassifikation ja nicht der Dokumenteninhalt herangezogen wird. Allerdings ist diese Art der Klassifikation nur in Dokumentenbereichen nutzbar, in denen sich die Belege optisch klar voneinander trennen lassen. Beispiel wären bestimmte Antragsarten, die sich durch ihr Design (Aufbau, Firmenlogo, …) abgrenzen lassen. Ungeeignet sind hier beispielsweise zum Teil Formulare im Finanzdienstleistungs- oder Versicherungsbereich, da diese sich optisch häufig sehr ähneln.

Natürlich muss man KTM die Layoutklassifikation für die Dokumentenarten eines Kunden antrainieren. KTM hält den manuellen Aufwand hierzu aber sehr gering. Im Vorfeld müssen für die in Frage kommenden Dokumentarten jeweils einige Beispieldokumente zusammengetragen werden. Anschließend zeigt man KTM noch, welche Beispiele für welche Dokumentenklasse stehen. KTM lernt dann selbstständig die kennzeichnenden Strukturen der Layouts der einzelnen Dokumentarten. Das Antrainieren der Beispieldokumente kann einfach über die grafische Oberfläche des KTM Project Builders durchgeführt werden.

2. Inhaltsklassifikation

Die (automatische) Inhaltsklassifikation ähnelt vom Vorgehen her der Layoutklassifikation, mit dem Unterschied, dass hier nicht die optische Struktur, sondern der tatsächliche Dokumenteninhalt zur Klassifizierung herangezogen wird. Dazu muss natürlich vorher ein OCR-Lesen der Dokumente erfolgen.

Das charmante daran ist, dass der Entwickler keinerlei Vorgaben zur Bedeutung des Inhalts machen muss. Ähnlich wie bei der Layoutklassifikation muss auch hier für jede Dokumentart ein Stapel an Beispieldokumenten zusammengetragen werden. Nach erfolgter OCR-Lesung der Beispieldokumente zeigt man KTM auch hier wieder, welcher Beispielstapel für welche Dokumentart steht. Anschließend lernt KTM dann selbstständig welche Worte, Phrasen oder Wortkombinationen charakteristisch für eine Dokumentart sind. Das Antrainieren der Beispieldokumente geschieht auch hier einfach über die grafische Oberfläche des KTM Project Builders.

3. Instruktionsklassifikation

Bei der Layout- und Inhaltsklassifikation müssen dem KTM-System ’nur‘ genug Beispielbelege zur Verfügung gestellt werden. Die eigentliche Arbeit des Lernens und Bewertens wird dann von KTM durchgeführt. Bei der Instruktionsklassifikation muss hingegen der Entwickler die Dokumente inhaltlich kennen und bewerten können. Je Dokumentart kann der Entwickler manuell Worte, Phrasen und Wortkombinationen hinterlegen, die eine Dokumentart kennzeichnen. Hier ist also fachspezifisches Wissen über das Beleggut notwendig.

Die Instruktionsklassifikation wird häufig bei Beleggut eingesetzt, das zum großen Teil aus Korrespondenz besteht. Kommen beispielsweise die Worte ‚Mahngebühr‘ und ‚Mahnung‘ beide auf einem Dokument vor, kann man das Dokument darüber in die Dokumentart ‚Mahnverfahren‘ klassifizieren.

Damit die Instruktionsklassifikation genutzt werden kann, muss vorher eine OCR-Lesung des Belegguts erfolgt sein. Die Eingabe der Instruktionen (Worte, Phrasen, Wortkombinationen) erfolgt über die grafische Oberfläche des KTM Project Builders.

4. Skript-Klassifikation

4.1 Barcode

In manchen Anwendungsfällen kann ein auf den Dokumenten aufgebrachter Barcode ausreichend für die Klassifizierung des Dokuments sein. KTM bietet auch diese Möglichkeit, man muss dazu aber die KTM-eigene Skriptsprache benutzen.

Ausgangspunkt ist ein auf Projektebene definierter Barcode-Lokator (BCode), der die Dokumentenbarcodes erkennt. Ein Stückchen Skript auf der Projektebene hilft das Dokument auf die gewünschte Dokumentart zu klassifizieren:

1' Class script: Project
2Private Sub Document_BeforeClassifyXDoc(pXDoc As CASCADELib.CscXDocument, bSkip As Boolean)
3  If pXDoc.Locators.ItemByName("BCode").Alternatives.Count>0 Then
4     If pXDoc.Locators.ItemByName("BCode").Alternatives(0).Confidence > 0.95 Then
5       pXDoc.Reclassify "Barcodeantrag"
6       Exit Sub 'möglichst nur ein reclassify
7     End If
8  End If
9End Sub

Das Skript wird im Event Document_BeforeClassifyXDoc aufgerufen, welches vor allen anderen Klassifizierungsmechanismen von KTM ausgeführt wird.

Zunächst wird überprüft, ob der Barcode-Lokator überhaupt etwas gefunden hat, und ob die Konfidenz über 95% lag. Falls ja erfolgt über den reclassify-Befehl die Klassifizierung auf die Dokumentart ‚Barcodeantrag‘. Nach erfolgter Klassifizierung wird die Routine verlassen, damit keine weitere Klassifizierung durch ein folgendes Stück Skript erfolgen kann. Ein mehrfaches reclassify ist zwar inzwischen mit KTM möglich, sollte aber nur mit Vorsicht eingesetzt werden, da man damit leicht Endlosschleifen hervorrufen kann.

4.2 Formatlokatoren, Erweiterte Zonenlokatoren und der ganze Rest…

Das in 4.1 anhand eines Barcodelokators beschriebene Prinzip der Skriptklassifizierung kann natürlich auch mit beliebigen anderen Lokatoren durchgeführt werden. Wichtig ist, dass der entsprechenden Lokator auf Projektebene definiert wird, da er sonst im Event Document_BeforeClassifyXDoc nicht ausgewertet werden kann, und er muss natürlich die Dokumentart eindeutig kennzeichnen. Der primäre Zweck dieser ‚Projektlokatoren‘ ist also nicht die Datenextraktion sondern sie dienen als Hilfsmittel zur Klassifikation.

Mit einem auf Projektebene definierten Formatlokator kann man beispielsweise den Typ eines Versicherungsantrags feststellen und dann das Dokument entsprechend klassifizieren. Das folgende Bild zeigt einen Ausschnitt eines Haftpflichtversicherungsantrags:

Mit einem Formatlokator (Antrag_Haft), der beispielsweise das Wort Haftpflichtversicherung oberhalb des Wortes Antrag in einer Region in der linken oberen Ecke des Dokuments sucht, kann der Antragstyp eindeutig bestimt werden.

Das passende Stück Skript sieht dann so aus (enstprechend dem Barcodebeispiel):

1' Class script: Project
2Private Sub Document_BeforeClassifyXDoc(pXDoc As CASCADELib.CscXDocument, bSkip As Boolean)
3  If pXDoc.Locators.ItemByName("Antrag_Haft").Alternatives.Count>0 Then
4     If pXDoc.Locators.ItemByName("Antrag_Haft").Alternatives(0).Confidence > 0.95 Then
5       pXDoc.Reclassify "Antrag_Haftpflicht"
6       Exit Sub 'möglichst nur ein reclassify
7     End If
8  End If
9End Sub

Nutzt man einen ‚Erweiterten Zonenlokator‘ (Antrag_Haft_EZL) für die Klassifizierung muss man das Skript nur leicht an die Unterfelder des Zonenlokators anpassen:

1' Class script: Project
2Private Sub Document_BeforeClassifyXDoc(pXDoc As CASCADELib.CscXDocument, bSkip As Boolean)
3  If pXDoc.Locators.ItemByName("Antrag_Haft_EZL").Alternatives.Count>0 Then
4     If pXDoc.Locators.ItemByName("Antrag_Haft_EZL").Alternatives(0).SubFields.ItemByName("UF_Zone0").Confidence > 0.95 Then
5       pXDoc.Reclassify "Antrag_Haftpflicht"
6       Exit Sub 'möglichst nur ein reclassify
7     End If
8  End If
9End Sub

Hat man das Prinzip der Skriptklassifizierung einmal verstanden, sind der Fantasie eigentlich keine Grenzen gesetzt. So könnte man beispielsweise über einen Datenbanklokator den Absender der Eingangsdokumente bestimmen (falls eine entsprechende Stammdatendatei vorliegt) und die Dokumente dann in vordefinierte Gruppen klassifizieren.

Oft haben Formulare eine eindeutige Formularnummer um 90° gedreht in der unteren linken Ecke aufgedruckt. Mit einem ‚Erweiterten Zonenlokator‘ kann diese um 90° gedrehte Nummer ausgelesen und zur Dokumentenklassifikation genutzt werden.

Ich hoffe Ihnen durch diesen Artikel einige Anregungen für die Arbeit mit Kofax Transformation Modules gegeben zu haben und wünsche viel Spaß beim Experimentieren 🙂

Noch ein Hinweis für die Entwickler unter den Lesern: mein Kollege Frank Engelen aus dem codecentric Unternehmensbereich Agile Software Factory hat aktuell einen sehr interessanten Artikel über Daten- / Dokumentklassifizierung unter Nutzung des Tools ‚RapidMiner‘ verfasst. Mit ‚etwas‘ Java KnowHow können Sie Ihre eigenen Klassifizierungsmechanismen entwickeln!

Hier der Link zum Artikel: Taking a look at Java-based Machine Learning by Classification

Neu: KTM im Versicherungseinsatz: Heller, grauer und dunkler Posteingang

War dieser Beitrag hilfreich?

SPRACHE

Beitrag teilen

Gefällt mir

Blog-Autor*in

Jürgen Voss

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Weitere Beiträge

von Jürgen Voss

Spaß mit Flaggen: KTM – ein lockerer Rückblick auf 16 Jahre Kofax Transformation...

Anfang 2006 war ich bei DICOM beschäftigt, die einige Jahre zuvor Kofax gekauft hatten (ja, ich bin schon etwas älter). Da ich mit dem KTM-Vorgängerprodukt Ascent Advanced Forms schon einige Projekte erfolgreich durchgeführt hatte, durfte ich mich dann...

Digitalisierung

12.12.2022 | 2 Minuten Lesezeit

Jürgen Voss

Auslesen von deutschen Empfängeradressen mit Kofax Transformation Modules...

Das Auslesen von Adress-/Anschriftbereichen in Briefen war schon immer eine recht schwierige Problematik. Die Freude war umso größer, als Kofax vor einigen KTM-Versionen (Kofax Transformation Modules ) ein Werkzeug (Adress-Lokator) für das automatisierte...

NLP
Archivierung

7.3.2022 | 6 Minuten Lesezeit

Jürgen Voss

Natural Language Processing: Erweiterungen mit KTM 6.4

Im Frühjahr 2020 erhielt das Produkt Kofax Transformation Modules (KTM) mit dem Service Pack 6.3.1 ein neues Modul: Natural Language Processing (NLP). Natural Language Processing versucht, den Text des Dokuments zu analysieren, Wörter und deren Beziehungen...

Content Management
Archivierung
NLP

15.4.2021 | 2 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules: Natural Language Processing, sentiments ...

Kofax Transformation Modules (KTM) offers several tools for document classification and data extraction. There are some older blog articles about these tools: – Document classification – Data extraction with format locators – Machine Learning The...

Content Management
AI
Archiving
NLP

6.4.2020 | 8 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules: Natural Language Processing, Stimmungen ...

Kofax Transformation Modules (KTM) bietet diverse Werkzeuge, um Dokumente zu klassifizieren und Daten zu extrahieren. Diese Werkzeuge wurden bereits in früheren Blog-Artikeln erläutert: – Dokumentenklassifizierung – Datenextraktion mit Format-Lokatoren...

Content Management
NLP
Archivierung

16.3.2020 | 7 Minuten Lesezeit

Jürgen Voss

Document classification, data extraction and everything

Over time, a lot of posts about document classification and data extraction, using Kofax, among other products, have been published in the codecentric blog. This blog post will put these posts into context and point out the changes with regard to older...

Content Management
AI
Archiving

20.8.2019 | 6 Minuten Lesezeit

Jürgen Voss

Dokumentenklassifikation, Datenextraktion und der ganze Rest…

Im Laufe der Zeit gab es im codecentric-Blog viele Beiträge, die Dokumentenklassifikation und Datenextraktion zum Thema hatten. In diesem Beitrag möchte ich diese Artikel nochmal in einen Zusammenhang stellen und auf Neuerungen bei den älteren Beiträ...

Content Management
NLP
Archivierung

20.8.2019 | 7 Minuten Lesezeit

Jürgen Voss

Orientation problems with document processing (Kofax Transformation Modules...

Document classification and data extraction in business companies have to deal with paper documents, emails and faxes. The orientation of the digitized documents (0°, 90°, 180°, 270°) usually doesn’t matter. During OCR processing the system will recognize...

Content Management
Archiving
AI

7.7.2019 | 3 Minuten Lesezeit

Jürgen Voss

Orientierungsprobleme bei der Dokumentenerkennung (Kofax Transformation...

Bei der intelligenten Dokumentenklassifizierung und Datenextraktion von Eingangspost in Unternehmen müssen die Eingangskanäle Papier, Email und Fax berücksichtigt werden. Normalerweise ist die Orientierung der digitalisierten Dokumente (0°, 90°, 180°...

Content Management
NLP
Archivierung

7.7.2019 | 3 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules (KTM) – Dictionaries: Search by script

In addition to fuzzy databases KTM also offers so-called dictionaries for the optimization of recognition. For example these dictionaries can be used in the regular expressions of a format locator to find dates of the form “01. December 2015”. The dictionary...

6.7.2017 | 2 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules (KTM), AI and Machine Learning

The topics AI, machine learning and deep learning are on everyone’s lips, and the media regularly publishes articles on them. What many do not know is that Kofax Transformation Modules (KTM) also provides mechanisms of machine learning. KTM is a system...

5.6.2017 | 5 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules (KTM), KI und maschinelles Lernen

Die Themen „KI“, maschinelles Lernen und Deep Learning sind in aller Munde, und in den Medien erscheinen regelmäßig Artikel darüber. Was viele nicht wissen ist, dass Kofax Transformation Modules (KTM) „unter der Haube“ auch Mechanismen des maschinellen...

16.5.2017 | 5 Minuten Lesezeit

Jürgen Voss

CenterDevice und CenterScan – Scannen, Erkennen und sichere Ablage

CenterDevice ist ein Cloud-basiertes, professionelles Dokumentenmanagement- und Online-Collaboration-System. Im codecentric-Blog-Artikel CenterDevice und Kofax Capture – Integration out of the box wurde die einfache Integration von CenterDevice und...

8.2.2017 | 2 Minuten Lesezeit

Jürgen Voss

CenterDevice und Kofax Capture – Integration out of the box

Eine Standardaufgabe in vielen Unternehmen ist die Digitalisierung von eingehenden Papier-, Fax- und EMail-Dokumenten, deren Klassifizierung, Datenextraktion, sowie die sichere Ablage in einem Dokumentenmanagementsystem. In diesem Artikel soll kurz skizziert...

7.12.2016 | 3 Minuten Lesezeit

Jürgen Voss

Unterstützung eines automatisierten Kündigungsprozesses mit Kofax KTM

Die Eingangsdokumente (Brief, Fax oder Email) bei einem unserer Versicherungskunden werden mit Kofax Capture erfasst und durch Kofax Transformation Modules (KTM) klassifiziert und die gewünschten Geschäftsdaten werden dann ebenfalls mit KTM extrahiert...

26.10.2016 | 4 Minuten Lesezeit

Jürgen Voss

Kofax Capture Validation Scripting – from SBL to VB.NET for Dummies

With Kofax Capture you can enter document index values in a validation screen or just confirm or changes values which have been recognized automatically. The validation screen form presents all fields of a document and the user has to confirm/change ...

8.6.2016 | 4 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules: SEPA Mandates and handwritten additional...

Within the last two years many companies had to ask their customers to sign the SEPA Direct Debit Mandates. It is an established procedure to send out forms with filled customer data (the SEPA Mandate). The customer signs the mandate and sends it back...

19.2.2016 | 5 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules (KTM): ‘free-form recognition’ for handwritten...

In contrast to form based recognition, the free-form recognition tries to find certain values (like an insurance number) somewhere on a document. It is helpful if the searched value has a structure that can be found with regular expressions. Furthermore...

NLP
Archiving

19.7.2015 | 4 Minuten Lesezeit

Jürgen Voss

Kofax Capture – Document Separation and Barcodes

A well known approach to separate documents at scan time is the use of barcode labels on the first page of a document. The barcode may also be put on a single separator sheet. If a batch of documents is scanned by Kofax Capture, the barcode will be recognized...

6.1.2015 | 4 Minuten Lesezeit

Jürgen Voss

IBM Content Collector for SAP (formerly known as IBM CommonStore for SAP...

IBM Content Collector for SAP (ICC/SAP) is an interface for SAP ERP-Systems and IBM archiving systems: IBM Content Manager, On Demand und TSM. SAP provides the standard interface ‘ArchiveLink’ for linking external archiving systems. ICC/SAP is certified...

Content Management
NLP
Archiving

22.7.2014 | 5 Minuten Lesezeit

Jürgen Voss

KTM and insurance companies: Document Process Automation

Many of our customers are using systems for automatic document classification and data extraction. ‘Kofax Transformation Modules’ (KTM) is one of these systems. These data capturing systems extract metadata out of the electronic images (these are ...

29.11.2013 | 5 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules – format locators and dynamic regular expressions...

Part 2: Dynamic regular expressions in KTM In the first part of this blog article I explained the use of KTM format locators and regular epressions. Now I will try to explain how flexible KTM projects can be designed by using the KTM internal scripting...

1.2.2013 | 4 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules – format locators and dynamic regular expressions

Part 1: An introduction to format locators and regular expressions Many of our customers are using systems for automatic document classification and data extraction. These data capturing systems extract metadata out of the electronic images (these are...

9.1.2013 | 5 Minuten Lesezeit

Jürgen Voss

Dein Job bei codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.

Absenden

Dokumentenklassifizierung mit Kofax Transformation Modules (KTM)

War dieser Beitrag hilfreich?

Ja

Blog-Autor*in

Kontakt aufnehmen

Kontakt aufnehmen

Weitere Beiträge

Spaß mit Flaggen: KTM – ein lockerer Rückblick auf 16 Jahre Kofax Transformation...

Auslesen von deutschen Empfängeradressen mit Kofax Transformation Modules...

Natural Language Processing: Erweiterungen mit KTM 6.4

Kofax Transformation Modules: Natural Language Processing, sentiments ...

Kofax Transformation Modules: Natural Language Processing, Stimmungen ...

Document classification, data extraction and everything

Dokumentenklassifikation, Datenextraktion und der ganze Rest…

Orientation problems with document processing (Kofax Transformation Modules...

Orientierungsprobleme bei der Dokumentenerkennung (Kofax Transformation...

Kofax Transformation Modules (KTM) – Dictionaries: Search by script

Kofax Transformation Modules (KTM), AI and Machine Learning

Kofax Transformation Modules (KTM), KI und maschinelles Lernen

CenterDevice und CenterScan – Scannen, Erkennen und sichere Ablage

CenterDevice und Kofax Capture – Integration out of the box

Unterstützung eines automatisierten Kündigungsprozesses mit Kofax KTM

Kofax Capture Validation Scripting – from SBL to VB.NET for Dummies

Kofax Transformation Modules: SEPA Mandates and handwritten additional...

Kofax Transformation Modules (KTM): ‘free-form recognition’ for handwritten...

Kofax Capture – Document Separation and Barcodes

IBM Content Collector for SAP (formerly known as IBM CommonStore for SAP...

KTM and insurance companies: Document Process Automation

Kofax Transformation Modules – format locators and dynamic regular expressions...

Kofax Transformation Modules – format locators and dynamic regular expressions

Dein Job bei codecentric?

Agile Developer und Consultant (w/d/m)

Zur Stellenanzeige

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Unsere Leistungen

Hilf uns, noch besser zu werden.

Zu den Jobangeboten