Kofax Transformation Modules: Natural Language Processing, Stimmungen und Entitäten

16.3.2020 | 7 Minuten Lesezeit

Kofax Transformation Modules (KTM) bietet diverse Werkzeuge, um Dokumente zu klassifizieren und Daten zu extrahieren. Diese Werkzeuge wurden bereits in früheren Blog-Artikeln erläutert:

– Dokumentenklassifizierung
– Datenextraktion mit Format-Lokatoren
– Maschinelles Lernen

Die aktuelle KTM-Hauptversion 6.3 hat mit dem ServicePack 6.3.1 ein weiteres interessantes Werkzeug erhalten: Natural Language Processing (NLP)

Natural Language Processing versucht, den Text des Dokuments zu analysieren, Wörter und deren Beziehungen zu verstehen, um daraus Informationen und Wissen zu gewinnen.

Das Kofax NLP-Paket scheint auf der Salience Engine der Firma Lexalytics zu basieren.

Dadurch, dass NLP in KTM nicht mit einer Hauptversion, sondern einem ServicePack eingeführt wurde, ist die Dokumentation dazu noch etwas rudimentär. In der Hauptdokumentation ist dazu noch gar nichts enthalten. Diese Dokumentation wird wohl erst mit dem Release der nächsten Hauptversion angepasst. Teile der Dokumentation sind aber schon im Readme des ServiePacks zu finden.

Dieser Blog-Artikel liefert einen Überblick über die Installation des NLP-Pakets, die beiden zugehörigen neuen Lokatoren (Extraktionswerkzeuge) und individuelle Erweiterungsmöglichkeiten der Entitäten und Stimmungen:

Installation des NLP-Pakets
Entitäten und Stimmungen
Individuelle Stimmungen und Entitäten

1. Installation des NLP-Pakets

Das NLP-Paket ist nicht Bestandteil der Installationssourcen von KTM 6.3 und auch nicht vom ServicePack 6.3.1. Das ServicePack beinhaltet allerdings zwei Lokatoren, die sich das NLP-Paket zunutze machen.
Das NLP-Paket an sich ist ein eigenes Installationspaket, das über delivery.kofax.com heruntergeladen werden kann. Nach dem Download stehen drei msi-Installationsdateien zur Verfügung, die diverse Sprachen abdecken:

KofaxTransformation_Salience6.4_LanguageBundle_western-default.msi
KofaxTransformation_Salience6.4_LanguageBundle_western-extended.msi
KofaxTransformation_Salience6.4_LanguageBundle_extended.msi

Die drei Pakete können nacheinander installiert werden.

2. Entitäten und Stimmungen

Mit den bekannten Werkzeugen wie zum Beispiel Format-Lokatoren mit regulären Ausdrücken oder Stammdatenabgleich können schon sehr viele Informationen aus Dokumenten gewonnen werden. Meist handelt es sich dabei um eindimensionale Daten wie ein Datum, Nummern, Beträge oder bestimmte Zeichenketten.

Mit dem neuen Entitäten-Lokator erkennt KTM nun automatisch Objekte wie beispielsweise Personen, Firmen, Produkte, Orte, URLs, Email-Adresse, Schulen, Organisationen, Städte, uvm. Dieser neue Lokator ist konfigurierbar, so dass man festlegen kann, ob man nur einzelne Entitätstypen suchen will oder ob er alle gefundenen als Treffer liefern soll.

Der ebenfalls neu hinzugekommene Sentiment-Lokator versucht die vorherrschende Stimmung eines Dokuments zu bestimmen. Beinhaltet der Text eher eine positive Grundstimmung oder ist es vielleicht eine Beschwerde mit negativem Grundton? Der Sentiment-Lokator ist bis auf die übliche Möglichkeit, ihn auf bestimmte Dokumentenregionen zu beschränken, nicht konfigurierbar.

2.1 Entitäten-Lokator

Der Entitäten-Lokator kann wie jeder andere KTM-Lokator auf einer beliebigen Klasse im Klassenbaum genutzt werden. Eine Besonderheit hierbei ist, dass man in den Eigenschaften dieser Klasse(n) die zu benutzende Sprache einstellen muss. Hier stehen genau die Sprachen zur Verfügung, die mit den drei msi-Paketen installiert wurden. Diese Einstellmöglichkeit findet sich ab KTM 6.3.1 ganz unten bei den Klasseneigenschaften:

Momentan stehen die folgenden Sprachen zur Auswahl:

Für die folgenden Beispiele wird immer das folgende Dokument benutzt:

Der Entitäten-Lokator selbst bietet drei verschiedene Modi:

Modus 1: Einfaches Feld und kein ausgewählter Entitätstyp:

In diesem Modus liefert der Lokator alle gefundenen Entitätstypen:

Modus 2: Einfaches Feld mit ausgewähltem Entitätstyp:

Alternativ kann man auch einen bestimmten Eintitätstyp festlegen (hier Person):

Wie zu erwarten, werden dann nur Treffer passend zum gewählten Entitätstyp geliefert:

Die Trefferliste liefert leider nur den Treffer und die Konfidenz und nicht den Entitätstyp, was insbesondere im ersten Beispiel mit mehreren Entitätstypen unschön ist.

Hier hilft der dritte Modus:

Modus 3: Tabellenfeld mit oder ohne ausgewähltem Entitätstyp:

Um diesen Modus nutzen zu können, muss man vorher ein einfaches Tabellenmodel erstellen (wie beim Auslesen von Tabellen mit dem Tabellenlokator). Sinnvoll sind hier die Spaltenbezeichnungen Text, Confidence, EntityType und Sentiment, die ich in dem Tabellenmodell Entity zusammengefasst habe. In diesem Modus liefert der Lokator die aussagefähigsten Ergebnisse:

Man sieht hier in Tabellenform alle Treffer mit Konfidenz, Wert, Typ und ‚Stimmung‘. Wobei ich den Sinn des Sentiments in diesem Zusammenhang anzweifle.

Was spricht nun für Modus 1/2 und was für Modus 3?

Das Ergebnis aus Modus 1/2 kann ich direkt einem KTM-Feld zuordnen (wie gehabt den besten Treffer). Dort erhalte ich dann allerdings nur den Wert und nicht den Entitätstyp. Weitere Treffer können wie üblich in KTM per Skript abgefragt werden.

Im Gegensatz dazu kann das Ergebnis von Modus 3 nur einem Tabellenfeld zugeordnet werden, da es ja eine Tabelle darstellt. Natürlich kann das Tabellenergebnis auch per Skript abgefragt werden.

Insgesamt bevorzuge ich den Tabellenmodus des Entitäten-Lokators, da ich dort alle Ergebnisinformationen im Zugriff habe.

2.2 Sentiment-Lokator

Dieser Lokator versucht die Grundstimmung eines Dokuments herauszufinden.

Das Ergebnis des Sentiment-Lokators ist ein Wert zwischen -1.00 und +1.00 und kann einem einfachen Feld zugeordnet werden. Kofax erläutert den Wertebereich folgendermaßen:

Positiv: 0.12 bis 1.00
Neutral: -0.025 bis 0.11
Negativ: -0.026 bis -1.00

Der Sentimentlokator sucht automatisch nach einer Grundstimmung und hat keine konfigurierbaren Einstellungen. Allerdings kann man den Bereich des Dokuments, der für den Lokator genutzt werden soll wie üblich durch die Einschränkung auf bestimmte Regionen begrenzen.

Die Eigensschaftsseite des Sentimentlokators:

Ein Test mit dem obigen Beispieldokument liefert das folgende Ergebnis:

Das Ergebnis von fast 0.5 lässt auf eine positive Grundstimmung schließen (immerhin hat sich der Kontostand erhöht!).

Eine endgültige Beurteilung dieses Lokators kann ich noch nicht liefern, da mir nicht genug Belege mit ‚Stimmungen‘ zur Verfügung standen. Da der Lokator aber sehr einfach zu nutzen ist, kann man ihn ja durchaus mal in verschiedenen Projekten ‚mitlaufen‘ lassen und damit Erfahrungen sammeln.

3. Individuelle Stimmungen und Entitäten

3.1 Eigene Entitäten

Kofax liefert mit dem NLP wie oben beschrieben ja schon viele vordefinierte Entitäten mit (Personen, Orte, usw.). Darüber hinaus ermöglicht das NLP auch, eigene projektspezifische Entitäten zu definieren und für die Erkennung zu nutzen.

Ein Beispiel für eigen definierte Entitäten:

Eine Firma produziert Produkte, die sich in verschiedene Bereiche aufteilen. Jeder einzelne Bereich hat diverse Modellnummern. Für allgemeine Texte und Schreiben wird die spezifische Modellnummer nicht benötigt, aber auf jeden Fall der Produktbereich.

Für diesen Fall kann man sich nun eine eigene Entitäten-Datei definieren und KTM bereitstellen. Die Extraktion würde dann bspw. eine Modellnummer erkennen und den passenden Bereich als Extraktionsergebnis zurückliefern.

Das Vorgehen zur Nutzung eigener Entitäten:

Die projektspezifische Entitätendatei muss im Pfad des KTM-Projekts abgelegt werden:
…Projektordner\Custom\SalienceData\de\salience\entities\

Der Pfad unterhalb des Projektordners muss manuell angelegt werden (falls nicht vorhanden).

Für andere Sprachen muss de im Pfad durch das passende Sprachenkürzel ersetzt werden (en = Englisch, es = Spanisch, usw.)

legt den Entitätstyp fest, der vom Entitätslokator zurückgeliefert wird (im Tabellenmodus).

Innerhalb des Entitätsordners muss nun die eigentliche Entitätsdatei mit den Definitionen liegen. Der Name der Datei spielt keine Rolle, aber die Dateierweiterung muss .cdl lauten.

Die Zeilen der Datei müssen folgenden Aufbau haben:

SuchtextEntity-LabelEntity Name

Entity-Label wird momentan noch nicht unterstützt, kann aber in der Datei stehen.
Ohne Entity-Label müssen beide nacheinander folgen.

‚Suchtext‘ wird im Dokument gesucht und als Ergebnis des Lokators wird ‚Entity Name‘ in der Spalte ‚Text‘ geliefert.

Zum besseren Verständnis hier ein Beispiel:

Fahrzeuge.cdl hat folgenden Inhalt:

VW Tiguan     PKW         Volkswagen (PKW)
VW Golf       PKW         Volkswagen (PKW)
VW Bus        Transporter Volkswagen (Nutzfahrzeuge)
Skoda Octavia PKW         Skoda (PKW)
Skoda Fabia   PKW         Skoda (PKW)
Honda CBR 650 Motorrad    Honda (Motorrad)
Honda CBR 123 Motorrad    Honda (Motorrad)

Die Datei wird in folgendem Pfad abgelegt:

…Projektordner\Custom\SalienceData\de\salience\entities\Firmenwagen\Fahrzeuge.cdl

Ein Test des Entitätslokatores mit einer passenden Datei

liefert als Ergebnis:

Die selbst definierten Entitäten tauchen als Entitätstyp unter den Entitätenfiltern leider nicht auf.

Um die selbst definierten Entitäten dem KTM-System im Project Builder bekannt zu machen, muss die zugrundeliegende Salience Engine einmal gestoppt werden. Das kann unter den Eigenschaften der Dokumentenklasse geschehen, auf der der Entitätslokator definiert wurde:

Beim nächsten Extraktionslauf wird die Engine automatisch neu gestartet.

3.2 Eigene Stimmungen

Ähnlich wie bei den Entitäten kann man auch den Sentiment-Lokator um eigene Definitionen erweitern. Das NLP liefert für viele Sprachen eine Sentiment-Definitionsdatei mit.

Für die deutsche Sprache liegt diese in folgendem Pfad:
C:\Program Files (x86)\Common Files\Kofax\Salience6.4\de\salience\sentiment
und hat die Bezeichnung general.hsd.

Hier ein Auszug daraus:

auch empfehlen 0.3
besser verkaufen 0.3
getrennter Freund -0.3
berührend gefunden 0
viel harmloser 0.3
laufenden Band 0
öffentlichen Heiratsantrag 0.3
Goldenen Kamera 0.3
langjährigen Lebensgefährten 0.3
angeschlagenen Moderatorin -0.3
mangelnden Taktgefühls -0.3

Zuerst steht die bewertete Phrase und dann durch getrennt die Bewertung zwischen -1 und +1.

Um diese standardmäßig vorhandenen Phrasen anders zu bewerten oder neue Phrasen einzufügen, muss die Datei general.hsd in den Pfad des eigenen KTM-Projekts kopiert werden. Der Zielpfad ist:
…Projektdatei\Custom\SalienceData\de\salience\sentiment

Anschließend kann man die dorthin kopierte Datei general.hsd editieren und um eigene Begriffe und Bewertungen ergänzen.

Wie schon bei den selbst definierten Entitäten muss auch hier die Salience-Engine über die Eigenschaften der Dokumentenklasse gestoppt werden, damit die Änderungen im Project Builder wirksam werden.

Fazit

Insgesamt stellt Kofax mit dem Natural Language Pack für Kofax Transformaton Modules eine interessante und vielversprechende Erweiterung zur Dokumentenklassifikation und Datenextraktion zur Verfügung. Ich hoffe, dieser Artikel konnte einen ersten Überblick über die Möglichkeiten des NLPs liefern und die momentan noch fehlende Kofax Dokumentation ersetzen.

War dieser Beitrag hilfreich?

Beitrag teilen

Gefällt mir

Blog-Autor*in

Jürgen Voss

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Weitere Beiträge

von Jürgen Voss

Spaß mit Flaggen: KTM – ein lockerer Rückblick auf 16 Jahre Kofax Transformation...

Anfang 2006 war ich bei DICOM beschäftigt, die einige Jahre zuvor Kofax gekauft hatten (ja, ich bin schon etwas älter). Da ich mit dem KTM-Vorgängerprodukt Ascent Advanced Forms schon einige Projekte erfolgreich durchgeführt hatte, durfte ich mich dann...

Digitalisierung

12.12.2022 | 2 Minuten Lesezeit

Jürgen Voss

Auslesen von deutschen Empfängeradressen mit Kofax Transformation Modules...

Das Auslesen von Adress-/Anschriftbereichen in Briefen war schon immer eine recht schwierige Problematik. Die Freude war umso größer, als Kofax vor einigen KTM-Versionen (Kofax Transformation Modules ) ein Werkzeug (Adress-Lokator) für das automatisierte...

NLP
Archivierung

7.3.2022 | 6 Minuten Lesezeit

Jürgen Voss

Natural Language Processing: Erweiterungen mit KTM 6.4

Im Frühjahr 2020 erhielt das Produkt Kofax Transformation Modules (KTM) mit dem Service Pack 6.3.1 ein neues Modul: Natural Language Processing (NLP). Natural Language Processing versucht, den Text des Dokuments zu analysieren, Wörter und deren Beziehungen...

Content Management
Archivierung
NLP

15.4.2021 | 2 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules: Natural Language Processing, sentiments ...

Kofax Transformation Modules (KTM) offers several tools for document classification and data extraction. There are some older blog articles about these tools: – Document classification – Data extraction with format locators – Machine Learning The...

Content Management
AI
Archiving
NLP

6.4.2020 | 8 Minuten Lesezeit

Jürgen Voss

Document classification, data extraction and everything

Over time, a lot of posts about document classification and data extraction, using Kofax, among other products, have been published in the codecentric blog. This blog post will put these posts into context and point out the changes with regard to older...

Content Management
AI
Archiving

20.8.2019 | 6 Minuten Lesezeit

Jürgen Voss

Dokumentenklassifikation, Datenextraktion und der ganze Rest…

Im Laufe der Zeit gab es im codecentric-Blog viele Beiträge, die Dokumentenklassifikation und Datenextraktion zum Thema hatten. In diesem Beitrag möchte ich diese Artikel nochmal in einen Zusammenhang stellen und auf Neuerungen bei den älteren Beiträ...

Content Management
NLP
Archivierung

20.8.2019 | 7 Minuten Lesezeit

Jürgen Voss

Orientation problems with document processing (Kofax Transformation Modules...

Document classification and data extraction in business companies have to deal with paper documents, emails and faxes. The orientation of the digitized documents (0°, 90°, 180°, 270°) usually doesn’t matter. During OCR processing the system will recognize...

Content Management
Archiving
AI

7.7.2019 | 3 Minuten Lesezeit

Jürgen Voss

Orientierungsprobleme bei der Dokumentenerkennung (Kofax Transformation...

Bei der intelligenten Dokumentenklassifizierung und Datenextraktion von Eingangspost in Unternehmen müssen die Eingangskanäle Papier, Email und Fax berücksichtigt werden. Normalerweise ist die Orientierung der digitalisierten Dokumente (0°, 90°, 180°...

Content Management
NLP
Archivierung

7.7.2019 | 3 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules (KTM) – Dictionaries: Search by script

In addition to fuzzy databases KTM also offers so-called dictionaries for the optimization of recognition. For example these dictionaries can be used in the regular expressions of a format locator to find dates of the form “01. December 2015”. The dictionary...

6.7.2017 | 2 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules (KTM), AI and Machine Learning

The topics AI, machine learning and deep learning are on everyone’s lips, and the media regularly publishes articles on them. What many do not know is that Kofax Transformation Modules (KTM) also provides mechanisms of machine learning. KTM is a system...

5.6.2017 | 5 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules (KTM), KI und maschinelles Lernen

Die Themen „KI“, maschinelles Lernen und Deep Learning sind in aller Munde, und in den Medien erscheinen regelmäßig Artikel darüber. Was viele nicht wissen ist, dass Kofax Transformation Modules (KTM) „unter der Haube“ auch Mechanismen des maschinellen...

16.5.2017 | 5 Minuten Lesezeit

Jürgen Voss

CenterDevice und CenterScan – Scannen, Erkennen und sichere Ablage

CenterDevice ist ein Cloud-basiertes, professionelles Dokumentenmanagement- und Online-Collaboration-System. Im codecentric-Blog-Artikel CenterDevice und Kofax Capture – Integration out of the box wurde die einfache Integration von CenterDevice und...

8.2.2017 | 2 Minuten Lesezeit

Jürgen Voss

CenterDevice und Kofax Capture – Integration out of the box

Eine Standardaufgabe in vielen Unternehmen ist die Digitalisierung von eingehenden Papier-, Fax- und EMail-Dokumenten, deren Klassifizierung, Datenextraktion, sowie die sichere Ablage in einem Dokumentenmanagementsystem. In diesem Artikel soll kurz skizziert...

7.12.2016 | 3 Minuten Lesezeit

Jürgen Voss

Unterstützung eines automatisierten Kündigungsprozesses mit Kofax KTM

Die Eingangsdokumente (Brief, Fax oder Email) bei einem unserer Versicherungskunden werden mit Kofax Capture erfasst und durch Kofax Transformation Modules (KTM) klassifiziert und die gewünschten Geschäftsdaten werden dann ebenfalls mit KTM extrahiert...

26.10.2016 | 4 Minuten Lesezeit

Jürgen Voss

Kofax Capture Validation Scripting – from SBL to VB.NET for Dummies

With Kofax Capture you can enter document index values in a validation screen or just confirm or changes values which have been recognized automatically. The validation screen form presents all fields of a document and the user has to confirm/change ...

8.6.2016 | 4 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules: SEPA Mandates and handwritten additional...

Within the last two years many companies had to ask their customers to sign the SEPA Direct Debit Mandates. It is an established procedure to send out forms with filled customer data (the SEPA Mandate). The customer signs the mandate and sends it back...

19.2.2016 | 5 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules (KTM): ‘free-form recognition’ for handwritten...

In contrast to form based recognition, the free-form recognition tries to find certain values (like an insurance number) somewhere on a document. It is helpful if the searched value has a structure that can be found with regular expressions. Furthermore...

NLP
Archiving

19.7.2015 | 4 Minuten Lesezeit

Jürgen Voss

Kofax Capture – Document Separation and Barcodes

A well known approach to separate documents at scan time is the use of barcode labels on the first page of a document. The barcode may also be put on a single separator sheet. If a batch of documents is scanned by Kofax Capture, the barcode will be recognized...

6.1.2015 | 4 Minuten Lesezeit

Jürgen Voss

IBM Content Collector for SAP (formerly known as IBM CommonStore for SAP...

IBM Content Collector for SAP (ICC/SAP) is an interface for SAP ERP-Systems and IBM archiving systems: IBM Content Manager, On Demand und TSM. SAP provides the standard interface ‘ArchiveLink’ for linking external archiving systems. ICC/SAP is certified...

Content Management
NLP
Archiving

22.7.2014 | 5 Minuten Lesezeit

Jürgen Voss

KTM and insurance companies: Document Process Automation

Many of our customers are using systems for automatic document classification and data extraction. ‘Kofax Transformation Modules’ (KTM) is one of these systems. These data capturing systems extract metadata out of the electronic images (these are ...

29.11.2013 | 5 Minuten Lesezeit

Jürgen Voss

Document classification with Kofax Transformation Modules (KTM)

22.3.2013 | 6 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules – format locators and dynamic regular expressions...

Part 2: Dynamic regular expressions in KTM In the first part of this blog article I explained the use of KTM format locators and regular epressions. Now I will try to explain how flexible KTM projects can be designed by using the KTM internal scripting...

1.2.2013 | 4 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules – format locators and dynamic regular expressions

Part 1: An introduction to format locators and regular expressions Many of our customers are using systems for automatic document classification and data extraction. These data capturing systems extract metadata out of the electronic images (these are...

9.1.2013 | 5 Minuten Lesezeit

Jürgen Voss

Dein Job bei codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

ChatGPT im Alltag eines Python-Entwicklers

Seit einigen Tagen spiele ich mit ChatGPT herum. Beruflich und privat konnte ich damit einige Fragen bearbeiten, bspw. welche Alternativen es zu bestimmten Tools gibt, was Vorteile von Teilzeit für den Arbeitgeber sind oder wer ich bin. Leider weiß ChatGPT...

NLP
Python
Künstliche Intelligenz

27.1.2023 | 7 Minuten Lesezeit

Robert Meißner

Mit wenigen Zeilen Code Titel und Vorschaubild generieren

Ich bin ein fauler Mensch. Und ich schreibe viel, u. a. beruflich und privat in Blogs, auf Twitter und auf Wissenschaftsseiten. Das Schreiben per se ist schön. Aber wenn ich mir Titel überlegen muss oder gar Schlagwörter, dann ist der Spaß vorbei. Noch...

11.10.2022 | 7 Minuten Lesezeit

Robert Meißner

Auslesen von deutschen Empfängeradressen mit Kofax Transformation Modules...

NLP
Archivierung

7.3.2022 | 6 Minuten Lesezeit

Jürgen Voss

Natural Language Processing: Erweiterungen mit KTM 6.4

Content Management
Archivierung
NLP

15.4.2021 | 2 Minuten Lesezeit

Jürgen Voss

Handschriftenerkennung bei der Dokumentenklassifikation und -extraktion

Im Rahmen eines Kundenprojektes bei einem Telekommunikationsunternehmen war die Aufgabenstellung folgende: Die Eingangsbriefpost musste digitalisiert werden. Nach dem Scannen der Dokumente galt es diese zu klassifizieren (z. B. Kündigungen, Beschwerden...

Content Management
NLP

29.3.2020 | 3 Minuten Lesezeit

Thomas Bergmann

Dokumentenklassifikation, Datenextraktion und der ganze Rest…

Content Management
NLP
Archivierung

20.8.2019 | 7 Minuten Lesezeit

Jürgen Voss

Orientierungsprobleme bei der Dokumentenerkennung (Kofax Transformation...

Content Management
NLP
Archivierung

7.7.2019 | 3 Minuten Lesezeit

Jürgen Voss

codecentric.AI Bootcamp ist online!

Im letzten Jahr haben wir bei codecentric eine AI-Initiative gestartet. Wir haben uns zum Ziel gesetzt, einen Online-Kurs zum Thema Machine Learning und künstliche Intelligenz in deutscher Sprache zu entwickeln. Natürlich gibt es bereits mehrere sehr...

Computer Vision
Künstliche Intelligenz
NLP

26.5.2019 | 4 Minuten Lesezeit

Oliver Moser

Natural Language Processing — Einsteigen und loslegen!

1 Worum geht es?Ob Suchmaschinen, Spamfilter, Chatbots oder Sprachassistenten wie Siri und Alexa — Computer verarbeiten immer mehr Sprache mit immer besserer Genauigkeit und dringen damit immer weiter in unseren Alltag vor. Dahinter stecken anspruchsvolle...

Künstliche Intelligenz
Machine Learning
Python
NLP
Data

7.3.2019 | 11 Minuten Lesezeit

Thomas Timmermann

Ausrollen von Paketen mit Jenkins und der Cloud-Lösung CenterDevice

Manchmal gibt es Projekte, in denen man nicht die Hoheit über das Produktivsystem des Kunden hat, man also nicht selbständig neue Versionen vollautomatisiert vom Build bis ins Produktivsystem bringen kann. Man muss also einen Weg finden, dem Kunden die...

Archivierung
Cloud
CI/CD

25.9.2017 | 5 Minuten Lesezeit

Oliver

Introduction of and first steps in Kofax Total Agility

Kofax Total Agility (KTA) is one and probably the leading product in the First Mile™ strategy of Kofax. This strategy implies a simplification and improvement of the first steps of a business case. You can see KTA as a versatile workflow platform which...

Content Management
Archivierung

8.7.2017 | 10 Minuten Lesezeit

Daniel Brodka

Robotic Process Automation mit Kofax Kapow™

Kapow Software wurde 2013 von Kofax übernommen und passt perfekt in dessen First Mile™ Strategie. Kofax Kapow stellt eine Plattform für die Verabeitung von Daten von strukturierten oder unstrukturierten Datenbanken, Dateien, E-Mail-Systemen, Webseiten...

Archivierung
BPM

24.4.2017 | 11 Minuten Lesezeit

Stefan Blank

Computer-Vision-Techniken in Kofax Transformation Modules (KTM/KTD)

„Computer Vision“ ist eines der wichtigsten, aktuellen Themen in der IT. Überall in modernen Systemen kommt diese Technologie zum Einsatz – sei es in den genialen Autos von Tesla („Object Detection“ für Hindernisse, andere Verkehrsteilnehmer, Straßenschilder...

Data
NLP
Softwareentwicklung
Computer Vision
Archivierung
Künstliche Intelligenz

11.4.2017 | 3 Minuten Lesezeit

Niko Blättermann

Topic Modeling der codecentric Blog-Artikel

Der größte Teil von Big Data sind unstrukturierte Daten. Wenn eine Organisation ihre oder externe Daten von sozialen Medien mit dem Ziel besserer Geschäftsentscheidungen nutzbar machen möchte, so besteht eine Herausforderung darin aus unstrukturierten...

NLP
Python
Machine Learning

3.1.2017 | 15 Minuten Lesezeit

Matthias Radtke

Kofax Transformation Modules (KTM): ‚Freiformerkennung‘ für handschriftliche...

Freiformerkennung versucht im Gegensatz zur formularbasierten Erkennung, bestimmte Werte wie etwa eine Versicherungsnummer, irgendwo auf einem Dokument zu finden. Hilfreich dabei ist immer eine bestimmte Struktur des gesuchten Wertes, der dann meist ...

NLP
Archivierung

19.7.2015 | 3 Minuten Lesezeit

Jürgen Voss

IBM Content Collector for SAP (formerly known as IBM CommonStore for SAP...

IBM Content Collector for SAP (kurz ICC/SAP) ist die Verbindung zwischen SAP ERP-Systemen und den von IBM angebotenen Archivierungslösungen IBM Content Manager, On Demand und TSM. SAP stellt eine Standardschnittstelle zur Anbindung von externen Archivsystemen...

Content Management
NLP
Archivierung

22.7.2014 | 5 Minuten Lesezeit

Jürgen Voss

codecentric @ Kofax Transform 2011

– Technische Neuerungen, Networking und eine atemberaubende Kulisse in Barcelona –Für alle die zunächst nicht wissen, was die Transform ist, folgt ein kurzer Einblick.Wie in jedem Jahr veranstaltete Kofax die jährliche Partner- & Kunden-Konferenz Transform...

Archivierung

1.2.2011 | 5 Minuten Lesezeit

Automatisierter Modulimport für OpenCms

In einem unserer Projekte verwenden wir seit langer Zeit OpenCms als Redaktionssystem, ergänzt um ein Backend zur Realisierung von Fachlogik. Da wir agil arbeiten, haben wir natürlich auch den Anspruch, agil zu testen. Erste Maßnahme in Sprint 1 des ...

CI/CD
Content Management

15.4.2010 | 5 Minuten Lesezeit

Robert Spielmann

codecentric @ W-Jax 2008, Tag 2, 05.11.2008

Heute ist der zweite Konferenztag auf der W-Jax 2008 , der führenden Konferenz für umfassendes Know-how im Java-Umfeld. Die Konferenz, die sich an Softwareentwickler, Projektleiter und Architekten richtet, beschäftigt sich mit den wichtigsten Aspekten...

Framework
BPM
Java
Community
Content Management
Open Source
Frontend
Softwarearchitektur
Spring
Validierung
Webdevelopment

7.11.2008 | 3 Minuten Lesezeit

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.

Kontakt

Absenden

Kofax Transformation Modules: Natural Language Processing, Stimmungen und Entitäten

1. Installation des NLP-Pakets

2. Entitäten und Stimmungen

2.1 Entitäten-Lokator

2.2 Sentiment-Lokator

3. Individuelle Stimmungen und Entitäten

3.1 Eigene Entitäten

3.2 Eigene Stimmungen

Fazit

War dieser Beitrag hilfreich?

Ja

Blog-Autor*in

Kontakt aufnehmen

Kontakt aufnehmen

Weitere Beiträge

Spaß mit Flaggen: KTM – ein lockerer Rückblick auf 16 Jahre Kofax Transformation...

Auslesen von deutschen Empfängeradressen mit Kofax Transformation Modules...

Natural Language Processing: Erweiterungen mit KTM 6.4

Kofax Transformation Modules: Natural Language Processing, sentiments ...

Document classification, data extraction and everything

Dokumentenklassifikation, Datenextraktion und der ganze Rest…

Orientation problems with document processing (Kofax Transformation Modules...

Orientierungsprobleme bei der Dokumentenerkennung (Kofax Transformation...

Kofax Transformation Modules (KTM) – Dictionaries: Search by script

Kofax Transformation Modules (KTM), AI and Machine Learning

Kofax Transformation Modules (KTM), KI und maschinelles Lernen

CenterDevice und CenterScan – Scannen, Erkennen und sichere Ablage

CenterDevice und Kofax Capture – Integration out of the box

Unterstützung eines automatisierten Kündigungsprozesses mit Kofax KTM

Kofax Capture Validation Scripting – from SBL to VB.NET for Dummies

Kofax Transformation Modules: SEPA Mandates and handwritten additional...

Kofax Transformation Modules (KTM): ‘free-form recognition’ for handwritten...

Kofax Capture – Document Separation and Barcodes

IBM Content Collector for SAP (formerly known as IBM CommonStore for SAP...

KTM and insurance companies: Document Process Automation

Document classification with Kofax Transformation Modules (KTM)

Kofax Transformation Modules – format locators and dynamic regular expressions...

Kofax Transformation Modules – format locators and dynamic regular expressions

Dein Job bei codecentric?

Agile Developer und Consultant (w/d/m)

Zur Stellenanzeige

Weitere Artikel in diesem Themenbereich

ChatGPT im Alltag eines Python-Entwicklers

Mit wenigen Zeilen Code Titel und Vorschaubild generieren

Auslesen von deutschen Empfängeradressen mit Kofax Transformation Modules...

Natural Language Processing: Erweiterungen mit KTM 6.4

Handschriftenerkennung bei der Dokumentenklassifikation und -extraktion

Dokumentenklassifikation, Datenextraktion und der ganze Rest…

Orientierungsprobleme bei der Dokumentenerkennung (Kofax Transformation...

codecentric.AI Bootcamp ist online!

Natural Language Processing &mdash; Einsteigen und loslegen!

Ausrollen von Paketen mit Jenkins und der Cloud-Lösung CenterDevice

Introduction of and first steps in Kofax Total Agility

Robotic Process Automation mit Kofax Kapow™

Computer-Vision-Techniken in Kofax Transformation Modules (KTM/KTD)

Topic Modeling der codecentric Blog-Artikel

Kofax Transformation Modules (KTM): ‚Freiformerkennung‘ für handschriftliche...

IBM Content Collector for SAP (formerly known as IBM CommonStore for SAP...

codecentric @ Kofax Transform 2011

Automatisierter Modulimport für OpenCms

codecentric @ W-Jax 2008, Tag 2, 05.11.2008

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Unsere Leistungen

Hilf uns, noch besser zu werden.

Zu den Jobangeboten

Natural Language Processing — Einsteigen und loslegen!