//

Natural Language Processing: Erweiterungen mit KTM 6.4

15.4.2021 | 2 Minuten Lesezeit

Im Frühjahr 2020 erhielt das Produkt Kofax Transformation Modules (KTM) mit dem Service Pack 6.3.1 ein neues Modul: Natural Language Processing (NLP). Natural Language Processing versucht, den Text des Dokuments zu analysieren, Wörter und deren Beziehungen zu verstehen, um daraus Informationen und Wissen zu gewinnen. Dazu gab es bei codecentric einen einführenden Blogartikel .
Inzwischen gibt es eine neue Hauptversion 6.4 von KTM. Neben diversen anderen Neuerungen erhielt auch das NLP-Modul einige Erweiterungen, die ich in diesem Artikel kurz vorstellen möchte.

Im NLP-Modul stehen jetzt zwei neue Lokatoren zur Verfügung:

  • „Themen-Lokator“ (themes locator): Mit diesem neuen Lokator versucht das NLP-Modul die Haupt-Thematiken eines Textes zu bestimmen. Zu jedem gefundenen Thema wird die Konfidenz und die Stimmung (sentiment) mitgeliefert.
  • „Zusammenfassungs-Lokator“ (summary locator): Dieser neue NLP-Lokator versucht eine Zusammenfassung eines Dokuments, einer Seite oder eines Textbereichs zu liefern (in den Lokatoreigenschaften einstellbar).  Das Ergebnis soll das Wesentliche eines Textes zur Verfügung stellen, so dass man nicht das gesamte Dokument lesen muss.

Zur Demonstration dieser beiden Lokatoren benutze ich einen Blogartikel meiner Kollegin Olga Spivak aus unserem ‚People Solutions‘-Team.

Zunächst möchte ich kurz die Konfiguration der beiden Lokatoren beschreiben. Damit die NLP-Engine funktioniert, muss wie gehabt auf der genutzten Dokumentklassenebene die NLP-Funktionalität aktiviert werden:

Der Themen-Lokator wird dann wie üblich auf der gewünschten Dokumentenklasse definiert und konfiguriert:

In den Eigenschaften des Themen-Lokators wähle ich zunächst ein vorher definiertes Tabellenmodell aus, um die Ergebnisspalten darzustellen:

Über den Konfidenzschwellwert und die Sentiment-Einstellungen kann man die Ergebnisliste konfigurieren. Auf dem Regionen-Tab kann man die KTM-üblichen Regionseinschränkungen (Dokument, Seiten, Bereiche) vornehmen.

Bei geöffnetem Testdokument liefert der Test-Knopf direkt das Ergebnis:

Die Spalte „Thementyp“ liefert eine 1, wenn es sich um ein Hauptthema handelt, das mehrmals im Text vorkommt. In diesem Fall also ‚Recruiting‘.

Das Ergebnis des Themen-Lokators kann dann einem Tabellenfeld zugewiesen oder per Skript ausgewertet werden.

Auch der Zusammenfassungs-Lokator wird wie üblich auf der gewünschten Dokumentenklasse definiert und konfiguriert:

Der Zusammenfassungs-Lokator bietet zwei alternative Methoden der Textanalyse. Leider wird die unterschiedliche Vorgehensweise der beiden Methoden nirgends erläutert, so dass man auf eigene Tests zur Bestimmung des besten Ergebnisses angewiesen ist. Bei Olgas Beispieltext fand ich das Ergebnis der alternativen Methode passender. Über die Satzanzahl legt man fest, wieviele Sätze als Zusammenfassung zurückgegeben werden. Auf dem Regionen-Tab kann wieder die KTM-übliche Regionseinschränkung (Dokument, Seiten, Bereiche) eingestellt werden. Ein Druck auf den Test-Knopf liefert auch hier das sofortige Ergebnis:

Das Lokator-Ergebnis kann einem normalen Text-Feld zugeordnet werden.

Leider habe ich momentan keine Kundensituation, bei der ich die NLP-Funktionalität von KTM in der Praxis einsetzten kann und bin auf theoretisches ‚Herumspielen‘ eingeschränkt.  Aber man sollte für die Zukunft im Hinterkopf haben, dass sie je nach Anwendungsgebiet ein mächtiges Werkzeug sein kann. Ich würde mich freuen, wenn jemand von bereits gemachten praktischen Erfahrungen berichten könnte.

Beitrag teilen

Gefällt mir

0

//

Weitere Artikel in diesem Themenbereich

Entdecke spannende weiterführende Themen und lass dich von der codecentric Welt inspirieren.

//

Gemeinsam bessere Projekte umsetzen

Wir helfen Deinem Unternehmen

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.