Natural Language Processing: Erweiterungen mit KTM 6.4

Keine Kommentare

Im Frühjahr 2020 erhielt das Produkt Kofax Transformation Modules (KTM) mit dem Service Pack 6.3.1 ein neues Modul: Natural Language Processing (NLP). Natural Language Processing versucht, den Text des Dokuments zu analysieren, Wörter und deren Beziehungen zu verstehen, um daraus Informationen und Wissen zu gewinnen. Dazu gab es bei codecentric einen einführenden Blogartikel.
Inzwischen gibt es eine neue Hauptversion 6.4 von KTM. Neben diversen anderen Neuerungen erhielt auch das NLP-Modul einige Erweiterungen, die ich in diesem Artikel kurz vorstellen möchte.

Im NLP-Modul stehen jetzt zwei neue Lokatoren zur Verfügung:

  • „Themen-Lokator“ (themes locator): Mit diesem neuen Lokator versucht das NLP-Modul die Haupt-Thematiken eines Textes zu bestimmen. Zu jedem gefundenen Thema wird die Konfidenz und die Stimmung (sentiment) mitgeliefert.
  • „Zusammenfassungs-Lokator“ (summary locator): Dieser neue NLP-Lokator versucht eine Zusammenfassung eines Dokuments, einer Seite oder eines Textbereichs zu liefern (in den Lokatoreigenschaften einstellbar).  Das Ergebnis soll das Wesentliche eines Textes zur Verfügung stellen, so dass man nicht das gesamte Dokument lesen muss.

Zur Demonstration dieser beiden Lokatoren benutze ich einen Blogartikel meiner Kollegin Olga Spivak aus unserem ‚People Solutions‘-Team.

Zunächst möchte ich kurz die Konfiguration der beiden Lokatoren beschreiben. Damit die NLP-Engine funktioniert, muss wie gehabt auf der genutzten Dokumentklassenebene die NLP-Funktionalität aktiviert werden:

KTM: NLP Einstellungen auf Dokumentklassenebene

Der Themen-Lokator wird dann wie üblich auf der gewünschten Dokumentenklasse definiert und konfiguriert:

KTM: NLP Themen Lokator

In den Eigenschaften des Themen-Lokators wähle ich zunächst ein vorher definiertes Tabellenmodell aus, um die Ergebnisspalten darzustellen:

KTM: NLP Themen Lokator Eigenschaften

Über den Konfidenzschwellwert und die Sentiment-Einstellungen kann man die Ergebnisliste konfigurieren. Auf dem Regionen-Tab kann man die KTM-üblichen Regionseinschränkungen (Dokument, Seiten, Bereiche) vornehmen.

Bei geöffnetem Testdokument liefert der Test-Knopf direkt das Ergebnis:

KTM: NLP Themen Lokator Testergebnis

Die Spalte „Thementyp“ liefert eine 1, wenn es sich um ein Hauptthema handelt, das mehrmals im Text vorkommt. In diesem Fall also ‚Recruiting‘.

Das Ergebnis des Themen-Lokators kann dann einem Tabellenfeld zugewiesen oder per Skript ausgewertet werden.

 

Auch der Zusammenfassungs-Lokator wird wie üblich auf der gewünschten Dokumentenklasse definiert und konfiguriert:

KTM: NLP Zusammenfassungs-Lokator Eigenschaften

Der Zusammenfassungs-Lokator bietet zwei alternative Methoden der Textanalyse. Leider wird die unterschiedliche Vorgehensweise der beiden Methoden nirgends erläutert, so dass man auf eigene Tests zur Bestimmung des besten Ergebnisses angewiesen ist. Bei Olgas Beispieltext fand ich das Ergebnis der alternativen Methode passender. Über die Satzanzahl legt man fest, wieviele Sätze als Zusammenfassung zurückgegeben werden. Auf dem Regionen-Tab kann wieder die KTM-übliche Regionseinschränkung (Dokument, Seiten, Bereiche) eingestellt werden. Ein Druck auf den Test-Knopf liefert auch hier das sofortige Ergebnis:

KTM: NLP Zusammenfassungs-Lokator Testergebnis

Das Lokator-Ergebnis kann einem normalen Text-Feld zugeordnet werden.

Leider habe ich momentan keine Kundensituation, bei der ich die NLP-Funktionalität von KTM in der Praxis einsetzten kann und bin auf theoretisches ‚Herumspielen‘ eingeschränkt.  Aber man sollte für die Zukunft im Hinterkopf haben, dass sie je nach Anwendungsgebiet ein mächtiges Werkzeug sein kann. Ich würde mich freuen, wenn jemand von bereits gemachten praktischen Erfahrungen berichten könnte.

Voss Jürgen

Jürgen Voss unterstützt unsere Kunden bei der Erfassung von Eingangsdokumenten, deren Klassifikation samt Datenextraktion und anschließendem Starten der Geschäftsprozesse.

Die erfassten Dokumente werden dabei in Dokumentenmanagement-systemen wie CenterDevice oder Archivsystemen sicher abgelegt. Dazu zählt auch die E-Mail-Archivierung und die Ablage über die SAP-Archivierungsschnittstelle ArchiveLink.

Über 1.000 Abonnenten sind up to date!

Die neuesten Tipps, Tricks, Tools und Technologien.
Jede Woche direkt in deine Inbox.

Kostenfrei anmelden und immer auf dem neuesten Stand bleiben!
(Keine Sorge, du kannst dich jederzeit abmelden.)

Kommentieren

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.