Kofax Transformation Modules (KTM), KI und maschinelles Lernen

Keine Kommentare

Die Themen „KI“, maschinelles Lernen und Deep Learning sind in aller Munde, und in den Medien erscheinen regelmäßig Artikel darüber. Was viele nicht wissen ist, dass Kofax Transformation Modules (KTM) „unter der Haube“ auch Mechanismen des maschinellen Lernens nutzt. KTM ist ein System zur automatischen Klassifikation von Dokumenten und der dazugehörigen Extraktion von Datenfeldern (siehe dazu auch: Dokumentenklassifizierung mit Kofax Transformation Modules).

KTM hat schon immer Werkzeuge aus dem Bereich des maschinellen Lernens an Bord, die alleine oder auch zusammen mit der regelbasierten Freiformerkennung eingesetzt werden können. Diese auf neuronalen Netzen basierenden Methoden sollen im Folgenden kurz vorgestellt werden.

Ein KTM-Projekt besteht – vereinfacht ausgedrückt – aus den folgenden Phasen:

  • Projektvorbereitung: Dokumentarten, Datenfelder, Massentreiber
  • Projektdurchführung: Klassifikations- und Extraktionsdesign
  • Produktion: Erfassung, Klassifikation, Extraktion, manuelle Nachkorrektur/Validierung

  • Vor der Extraktion erfolgt die Klassifikation der Dokumentart, da verschiedene Dokumentarten normalerweise unterschiedliche Extraktionsfeldern besitzen. Sobald die Klassifikation erfolgreich durchgeführt wurde, kann die dokumentartspezifische Feldextraktion gestartet werden.

    KTM stellt sowohl für die Projektvorbereitung als auch für die Projektdurchführung und die Produktionsphase Werkzeuge aus dem Bereich des maschinellen Lernens zur Verfügung, um das System anzulernen und die Qualität der Ergebnisse sukzessive zu verbessern.

    Durch Training erkennen lernende Systeme den Kontext und speichern ihn für zukünftige Anwendungen. KTM z.B. merkt sich beim Extraktionstraining nicht die absolute Position eines Feldes, sondern speichert die Umgebung in der sich das Feld befindet. Das können nahe stehende Wörter (und deren Abstände zum Feld), die Position zu anderen Feldern, aber auch Linien oder ähnliches ein. Dieser nun neu gelernte Kontext ist dann bei der Verarbeitung des nächsten Dokuments direkt verfügbar, und der Feldwert kann dann bei einem ähnlichen Beleg – hoffentlich – direkt extrahiert werden. „Hoffentlich“ wurde eingefügt, da solche Systeme nicht deterministisch sind und manche Belege auch mehrfach angelernt werden müssen.

    Der KTM-„Werkzeugkasten“ für das maschinelle Lernen besteht aus den folgenden Elementen:

  • Clustering Tool: Basisinformation über Beleggut, was sind die Massentreiber?
  • Administratives Anlernen mit Beispielen der Massentreiber: Bestimmen der Dokumentart
  • Administratives Anlernen mit Beispielen der Massentreiber: Extraktion der Felddaten
  • Produktionszyklus: System lernt durch manuelle Vergabe der Dokumentart
  • Produktionszyklus: System lernt durch manuelle Felderfassung/-korrektur
  • Das Clustering-Tool

    Zu Beginn eines Erkennungsprojekts sollte zunächst geklärt werden, welche Dokumente den meisten „Gewinn“ versprechen. Welche Dokumentarten lohnen sich mengenmäßig für die Erkennung – die Massentreiber – und welche sollten zunächst nicht betrachtet werden?

    Zum Lieferumfang von KTM gehört ein Werkzeug (Clustering-Tool), das unsortierte Stapel von Dokumenten untersucht und sie in Teilstapel mit ähnlichen Kennzeichen aufteilt. Dieses Sortierung kann sowohl nach rein grafischen als auch nach inhaltlichen Kriterien erfolgen. Nach Einsatz dieses Werkzeugs hat man meist einen sehr guten Eindruck, welches die Massentreiber eines Projekts sind, mit denen man sich zunächst beschäftigen sollte:

    In obigem Beispiel sieht man, dass man sich zunächst auf die Bearbeitung der erzeugten Teilstapel 1, 5 und 4 konzentrieren sollte. Teilstapel 4 enthält 36 Dokumente des Typs „CAR Parts Co-Delivery Note“.

    Administratives Anlernen der Dokumentarten

    Dazu benutzt man die vom Clustering-Tool herausgearbeiteten Dokumentartstapel der Massentreiber. Innerhalb der KTM-Entwicklungsumgebung legt man manuell die Dokumentarten an oder lässt sich diese automatisch aus den Teilstapeln erstellen. Je Dokumentart weist ein Administrator dem System eine Anzahl an Beispieldokumenten zum Lernen zu. Die Anzahl ist sicherlich projektabhängig, aber in der Praxis hat sich ein Wert von etwa 20 Dokumenten bewährt. Das Lernen der Dokumentarten kann über das Layout und/oder den Textinhalt des Dokuments erfolgen.

    Der Lernerfolg lässt sich sofort anhand der nicht trainierten Beispiele der Teilstapel überprüfen.

    In praktischen Projekten vertraue ich dem Klassifikationsergebnis, das durch Lernen erzielt wurde, wenn ein bestimmter Konfidenzlevel erreicht wurde (z.B. 80%). Bei niedrigeren Werten werden dann noch zusätzliche dokumentartspezifische Regeln zur Bestimmung der Dokumentart herangezogen.

    Administratives Anlernen der Feldextraktion

    • Seite
    • 1
    • 2
    Jürgen Voss

    Jürgen Voss unterstützt unsere Kunden bei der Erfassung von Eingangsdokumenten, deren Klassifikation samt Datenextraktion und anschließendem Starten der Geschäftsprozesse.

    Die erfassten Dokumente werden dabei in Dokumentenmanagement-systemen wie CenterDevice oder Archivsystemen sicher abgelegt. Dazu zählt auch die E-Mail-Archivierung und die Ablage über die SAP-Archivierungsschnittstelle ArchiveLink.

    Share on FacebookGoogle+Share on LinkedInTweet about this on TwitterShare on RedditDigg thisShare on StumbleUpon

    Kommentieren

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.