Kofax Transformation Modules (KTM), KI und maschinelles Lernen

16.5.2017 | 5 Minuten Lesezeit

Die Themen „KI“, maschinelles Lernen und Deep Learning sind in aller Munde, und in den Medien erscheinen regelmäßig Artikel darüber. Was viele nicht wissen ist, dass Kofax Transformation Modules (KTM) „unter der Haube“ auch Mechanismen des maschinellen Lernens nutzt. KTM ist ein System zur automatischen Klassifikation von Dokumenten und der dazugehörigen Extraktion von Datenfeldern (siehe dazu auch: Dokumentenklassifizierung mit Kofax Transformation Modules ).

KTM hat schon immer Werkzeuge aus dem Bereich des maschinellen Lernens an Bord, die alleine oder auch zusammen mit der regelbasierten Freiformerkennung eingesetzt werden können. Diese auf neuronalen Netzen basierenden Methoden sollen im Folgenden kurz vorgestellt werden.

Ein KTM-Projekt besteht – vereinfacht ausgedrückt – aus den folgenden Phasen:

Projektvorbereitung: Dokumentarten, Datenfelder, Massentreiber
Projektdurchführung: Klassifikations- und Extraktionsdesign
Produktion: Erfassung, Klassifikation, Extraktion, manuelle Nachkorrektur/Validierung

Vor der Extraktion erfolgt die Klassifikation der Dokumentart, da verschiedene Dokumentarten normalerweise unterschiedliche Extraktionsfeldern besitzen. Sobald die Klassifikation erfolgreich durchgeführt wurde, kann die dokumentartspezifische Feldextraktion gestartet werden.

KTM stellt sowohl für die Projektvorbereitung als auch für die Projektdurchführung und die Produktionsphase Werkzeuge aus dem Bereich des maschinellen Lernens zur Verfügung, um das System anzulernen und die Qualität der Ergebnisse sukzessive zu verbessern.

Durch Training erkennen lernende Systeme den Kontext und speichern ihn für zukünftige Anwendungen. KTM z.B. merkt sich beim Extraktionstraining nicht die absolute Position eines Feldes, sondern speichert die Umgebung in der sich das Feld befindet. Das können nahe stehende Wörter (und deren Abstände zum Feld), die Position zu anderen Feldern, aber auch Linien oder ähnliches ein. Dieser nun neu gelernte Kontext ist dann bei der Verarbeitung des nächsten Dokuments direkt verfügbar, und der Feldwert kann dann bei einem ähnlichen Beleg – hoffentlich – direkt extrahiert werden. „Hoffentlich“ wurde eingefügt, da solche Systeme nicht deterministisch sind und manche Belege auch mehrfach angelernt werden müssen.

Der KTM-„Werkzeugkasten“ für das maschinelle Lernen besteht aus den folgenden Elementen:

Clustering Tool: Basisinformation über Beleggut, was sind die Massentreiber?
Administratives Anlernen mit Beispielen der Massentreiber: Bestimmen der Dokumentart
Administratives Anlernen mit Beispielen der Massentreiber: Extraktion der Felddaten
Produktionszyklus: System lernt durch manuelle Vergabe der Dokumentart
Produktionszyklus: System lernt durch manuelle Felderfassung/-korrektur

Das Clustering-Tool

Zu Beginn eines Erkennungsprojekts sollte zunächst geklärt werden, welche Dokumente den meisten „Gewinn“ versprechen. Welche Dokumentarten lohnen sich mengenmäßig für die Erkennung – die Massentreiber – und welche sollten zunächst nicht betrachtet werden?

Zum Lieferumfang von KTM gehört ein Werkzeug (Clustering-Tool), das unsortierte Stapel von Dokumenten untersucht und sie in Teilstapel mit ähnlichen Kennzeichen aufteilt. Dieses Sortierung kann sowohl nach rein grafischen als auch nach inhaltlichen Kriterien erfolgen. Nach Einsatz dieses Werkzeugs hat man meist einen sehr guten Eindruck, welches die Massentreiber eines Projekts sind, mit denen man sich zunächst beschäftigen sollte:

In obigem Beispiel sieht man, dass man sich zunächst auf die Bearbeitung der erzeugten Teilstapel 1, 5 und 4 konzentrieren sollte. Teilstapel 4 enthält 36 Dokumente des Typs „CAR Parts Co-Delivery Note“.

Administratives Anlernen der Dokumentarten

Dazu benutzt man die vom Clustering-Tool herausgearbeiteten Dokumentartstapel der Massentreiber. Innerhalb der KTM-Entwicklungsumgebung legt man manuell die Dokumentarten an oder lässt sich diese automatisch aus den Teilstapeln erstellen. Je Dokumentart weist ein Administrator dem System eine Anzahl an Beispieldokumenten zum Lernen zu. Die Anzahl ist sicherlich projektabhängig, aber in der Praxis hat sich ein Wert von etwa 20 Dokumenten bewährt. Das Lernen der Dokumentarten kann über das Layout und/oder den Textinhalt des Dokuments erfolgen.

Der Lernerfolg lässt sich sofort anhand der nicht trainierten Beispiele der Teilstapel überprüfen.

In praktischen Projekten vertraue ich dem Klassifikationsergebnis, das durch Lernen erzielt wurde, wenn ein bestimmter Konfidenzlevel erreicht wurde (z.B. 80%). Bei niedrigeren Werten werden dann noch zusätzliche dokumentartspezifische Regeln zur Bestimmung der Dokumentart herangezogen.

Administratives Anlernen der Feldextraktion

Nach dem Anlernen der Dokumentarten kann im nächsten Schritt das Extraktionstraining der dokumentartspezifischen Datenfelder erfolgen. Ähnlich wie beim Anlernen der Dokumentarten nimmt man wieder eine gewisse Anzahl an Lerndokumenten je Dokumentart und „zeigt“ dem System mit der Maus die Stellen, an denen Daten zu extrahieren sind. KTM merkt sich dabei nicht die absoluten Positionen, sondern speichert sich Merkmale (Grafiken, Wörter, Linien etc.) in der Nähe der Extraktionsposition.

Der Lernerfolg lässt sich auch wieder sofort anhand der nicht trainierten Beispiele der Teilstapel überprüfen.

Online-Lernen im Produktionszyklus

Nachdem ein vortrainiertes System produktiv gesetzt wurde, bietet KTM die Möglichkeit, während der täglichen Verarbeitung die Klassifikation und Extraktion weiter zu schärfen. Dazu zählt einerseits eine Optimierung bei den bereits in der Vorbereitung antrainierten Massentreibern, anderseits aber auch das grundsätzliche Antrainieren/Optimieren der bisher vernachlässigten sonstigen Dokumentarten.

KTM stellt Dokumente, bei denen die Klassifikation unsicher oder Felder unsicher/leer waren für eine manuelle Überprüfung/Ergänzung im sogenannten Validierungsmodul zur Verfügung. Dort kann manuell korrigiert werden und man kann – wenn gewünscht – das Dokument danach zum Online-Lernen markieren:

Danach geht das Originaldokument in die weitere Verarbeitung und eine Kopie wird an den KTM-Lernmechanismus gesendet. Je nach Konfiguration des KTM-Systems lernt das System die Änderungen direkt und diese stehen beim nächsten Scanstapel zur Verfügung oder ein Administrator muss das neue Lerndokument zuerst prüfen und freigeben.

Die folgende Darstellung zeigt den Ablauf der KTM-Verarbeitung und die Einbindung des Online-Learning:

Das direkte Online-Learning – ohne Kontrolle durch einen Administrator – birgt allerdings das Risiko, dass das System falsch lernt, da ja die Person am Validierungsarbeitsplatz ein Dokument direkt frei gibt. Nun kann man neuronale Netze nicht mehr – wie Programme in der klassischen Entwicklung – debuggen, um den Fehler zu finden, sondern muss andere Wege finden, um Korrekturen vorzunehmen.

KTM bietet dem Systemadministrator dafür eine Sicht auf alle Lerndokumente je Dokumentart und auch die Möglichkeit, Dokumente wieder aus der Lernmenge zu entfernen bzw. umzukonfigurieren. Trotzdem sollte man den Aufwand für eine solche Korrektur nicht unterschätzen und die Freigabe von neuen Lerndokumenten durch einen Administrator bzw. eine Fachkraft trotz des Mehraufwands vorsehen.

Hier der Link zur Success-Story aus einem Kundenprojekt.

War dieser Beitrag hilfreich?

Beitrag teilen

Gefällt mir

Blog-Autor*in

Jürgen Voss

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Weitere Beiträge

von Jürgen Voss

Spaß mit Flaggen: KTM – ein lockerer Rückblick auf 16 Jahre Kofax Transformation...

Anfang 2006 war ich bei DICOM beschäftigt, die einige Jahre zuvor Kofax gekauft hatten (ja, ich bin schon etwas älter). Da ich mit dem KTM-Vorgängerprodukt Ascent Advanced Forms schon einige Projekte erfolgreich durchgeführt hatte, durfte ich mich dann...

Digitalisierung

12.12.2022 | 2 Minuten Lesezeit

Jürgen Voss

Auslesen von deutschen Empfängeradressen mit Kofax Transformation Modules...

Das Auslesen von Adress-/Anschriftbereichen in Briefen war schon immer eine recht schwierige Problematik. Die Freude war umso größer, als Kofax vor einigen KTM-Versionen (Kofax Transformation Modules ) ein Werkzeug (Adress-Lokator) für das automatisierte...

NLP
Archivierung

7.3.2022 | 6 Minuten Lesezeit

Jürgen Voss

Natural Language Processing: Erweiterungen mit KTM 6.4

Im Frühjahr 2020 erhielt das Produkt Kofax Transformation Modules (KTM) mit dem Service Pack 6.3.1 ein neues Modul: Natural Language Processing (NLP). Natural Language Processing versucht, den Text des Dokuments zu analysieren, Wörter und deren Beziehungen...

Content Management
Archivierung
NLP

15.4.2021 | 2 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules: Natural Language Processing, sentiments ...

Kofax Transformation Modules (KTM) offers several tools for document classification and data extraction. There are some older blog articles about these tools: – Document classification – Data extraction with format locators – Machine Learning The...

Content Management
AI
Archiving
NLP

6.4.2020 | 8 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules: Natural Language Processing, Stimmungen ...

Kofax Transformation Modules (KTM) bietet diverse Werkzeuge, um Dokumente zu klassifizieren und Daten zu extrahieren. Diese Werkzeuge wurden bereits in früheren Blog-Artikeln erläutert: – Dokumentenklassifizierung – Datenextraktion mit Format-Lokatoren...

Content Management
NLP
Archivierung

16.3.2020 | 7 Minuten Lesezeit

Jürgen Voss

Document classification, data extraction and everything

Over time, a lot of posts about document classification and data extraction, using Kofax, among other products, have been published in the codecentric blog. This blog post will put these posts into context and point out the changes with regard to older...

Content Management
AI
Archiving

20.8.2019 | 6 Minuten Lesezeit

Jürgen Voss

Dokumentenklassifikation, Datenextraktion und der ganze Rest…

Im Laufe der Zeit gab es im codecentric-Blog viele Beiträge, die Dokumentenklassifikation und Datenextraktion zum Thema hatten. In diesem Beitrag möchte ich diese Artikel nochmal in einen Zusammenhang stellen und auf Neuerungen bei den älteren Beiträ...

Content Management
NLP
Archivierung

20.8.2019 | 7 Minuten Lesezeit

Jürgen Voss

Orientation problems with document processing (Kofax Transformation Modules...

Document classification and data extraction in business companies have to deal with paper documents, emails and faxes. The orientation of the digitized documents (0°, 90°, 180°, 270°) usually doesn’t matter. During OCR processing the system will recognize...

Content Management
Archiving
AI

7.7.2019 | 3 Minuten Lesezeit

Jürgen Voss

Orientierungsprobleme bei der Dokumentenerkennung (Kofax Transformation...

Bei der intelligenten Dokumentenklassifizierung und Datenextraktion von Eingangspost in Unternehmen müssen die Eingangskanäle Papier, Email und Fax berücksichtigt werden. Normalerweise ist die Orientierung der digitalisierten Dokumente (0°, 90°, 180°...

Content Management
NLP
Archivierung

7.7.2019 | 3 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules (KTM) – Dictionaries: Search by script

In addition to fuzzy databases KTM also offers so-called dictionaries for the optimization of recognition. For example these dictionaries can be used in the regular expressions of a format locator to find dates of the form “01. December 2015”. The dictionary...

6.7.2017 | 2 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules (KTM), AI and Machine Learning

The topics AI, machine learning and deep learning are on everyone’s lips, and the media regularly publishes articles on them. What many do not know is that Kofax Transformation Modules (KTM) also provides mechanisms of machine learning. KTM is a system...

5.6.2017 | 5 Minuten Lesezeit

Jürgen Voss

CenterDevice und CenterScan – Scannen, Erkennen und sichere Ablage

CenterDevice ist ein Cloud-basiertes, professionelles Dokumentenmanagement- und Online-Collaboration-System. Im codecentric-Blog-Artikel CenterDevice und Kofax Capture – Integration out of the box wurde die einfache Integration von CenterDevice und...

8.2.2017 | 2 Minuten Lesezeit

Jürgen Voss

CenterDevice und Kofax Capture – Integration out of the box

Eine Standardaufgabe in vielen Unternehmen ist die Digitalisierung von eingehenden Papier-, Fax- und EMail-Dokumenten, deren Klassifizierung, Datenextraktion, sowie die sichere Ablage in einem Dokumentenmanagementsystem. In diesem Artikel soll kurz skizziert...

7.12.2016 | 3 Minuten Lesezeit

Jürgen Voss

Unterstützung eines automatisierten Kündigungsprozesses mit Kofax KTM

Die Eingangsdokumente (Brief, Fax oder Email) bei einem unserer Versicherungskunden werden mit Kofax Capture erfasst und durch Kofax Transformation Modules (KTM) klassifiziert und die gewünschten Geschäftsdaten werden dann ebenfalls mit KTM extrahiert...

26.10.2016 | 4 Minuten Lesezeit

Jürgen Voss

Kofax Capture Validation Scripting – from SBL to VB.NET for Dummies

With Kofax Capture you can enter document index values in a validation screen or just confirm or changes values which have been recognized automatically. The validation screen form presents all fields of a document and the user has to confirm/change ...

8.6.2016 | 4 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules: SEPA Mandates and handwritten additional...

Within the last two years many companies had to ask their customers to sign the SEPA Direct Debit Mandates. It is an established procedure to send out forms with filled customer data (the SEPA Mandate). The customer signs the mandate and sends it back...

19.2.2016 | 5 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules (KTM): ‘free-form recognition’ for handwritten...

In contrast to form based recognition, the free-form recognition tries to find certain values (like an insurance number) somewhere on a document. It is helpful if the searched value has a structure that can be found with regular expressions. Furthermore...

NLP
Archiving

19.7.2015 | 4 Minuten Lesezeit

Jürgen Voss

Kofax Capture – Document Separation and Barcodes

A well known approach to separate documents at scan time is the use of barcode labels on the first page of a document. The barcode may also be put on a single separator sheet. If a batch of documents is scanned by Kofax Capture, the barcode will be recognized...

6.1.2015 | 4 Minuten Lesezeit

Jürgen Voss

IBM Content Collector for SAP (formerly known as IBM CommonStore for SAP...

IBM Content Collector for SAP (ICC/SAP) is an interface for SAP ERP-Systems and IBM archiving systems: IBM Content Manager, On Demand und TSM. SAP provides the standard interface ‘ArchiveLink’ for linking external archiving systems. ICC/SAP is certified...

Content Management
NLP
Archiving

22.7.2014 | 5 Minuten Lesezeit

Jürgen Voss

KTM and insurance companies: Document Process Automation

Many of our customers are using systems for automatic document classification and data extraction. ‘Kofax Transformation Modules’ (KTM) is one of these systems. These data capturing systems extract metadata out of the electronic images (these are ...

29.11.2013 | 5 Minuten Lesezeit

Jürgen Voss

Document classification with Kofax Transformation Modules (KTM)

22.3.2013 | 6 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules – format locators and dynamic regular expressions...

Part 2: Dynamic regular expressions in KTM In the first part of this blog article I explained the use of KTM format locators and regular epressions. Now I will try to explain how flexible KTM projects can be designed by using the KTM internal scripting...

1.2.2013 | 4 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules – format locators and dynamic regular expressions

Part 1: An introduction to format locators and regular expressions Many of our customers are using systems for automatic document classification and data extraction. These data capturing systems extract metadata out of the electronic images (these are...

9.1.2013 | 5 Minuten Lesezeit

Jürgen Voss

Dein Job bei codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.

Kontakt

Absenden

Kofax Transformation Modules (KTM), KI und maschinelles Lernen

Das Clustering-Tool

Administratives Anlernen der Dokumentarten

Administratives Anlernen der Feldextraktion

Online-Lernen im Produktionszyklus

War dieser Beitrag hilfreich?

Ja

Blog-Autor*in

Kontakt aufnehmen

Kontakt aufnehmen

Weitere Beiträge

Spaß mit Flaggen: KTM – ein lockerer Rückblick auf 16 Jahre Kofax Transformation...

Auslesen von deutschen Empfängeradressen mit Kofax Transformation Modules...

Natural Language Processing: Erweiterungen mit KTM 6.4

Kofax Transformation Modules: Natural Language Processing, sentiments ...

Kofax Transformation Modules: Natural Language Processing, Stimmungen ...

Document classification, data extraction and everything

Dokumentenklassifikation, Datenextraktion und der ganze Rest…

Orientation problems with document processing (Kofax Transformation Modules...

Orientierungsprobleme bei der Dokumentenerkennung (Kofax Transformation...

Kofax Transformation Modules (KTM) – Dictionaries: Search by script

Kofax Transformation Modules (KTM), AI and Machine Learning

CenterDevice und CenterScan – Scannen, Erkennen und sichere Ablage

CenterDevice und Kofax Capture – Integration out of the box

Unterstützung eines automatisierten Kündigungsprozesses mit Kofax KTM

Kofax Capture Validation Scripting – from SBL to VB.NET for Dummies

Kofax Transformation Modules: SEPA Mandates and handwritten additional...

Kofax Transformation Modules (KTM): ‘free-form recognition’ for handwritten...

Kofax Capture – Document Separation and Barcodes

IBM Content Collector for SAP (formerly known as IBM CommonStore for SAP...

KTM and insurance companies: Document Process Automation

Document classification with Kofax Transformation Modules (KTM)

Kofax Transformation Modules – format locators and dynamic regular expressions...

Kofax Transformation Modules – format locators and dynamic regular expressions

Dein Job bei codecentric?

Agile Developer und Consultant (w/d/m)

Zur Stellenanzeige

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Unsere Leistungen

Hilf uns, noch besser zu werden.

Zu den Jobangeboten