Unterstützung eines automatisierten Kündigungsprozesses mit Kofax KTM

26.10.2016 | 4 Minuten Lesezeit

Die Eingangsdokumente (Brief, Fax oder Email) bei einem unserer Versicherungskunden werden mit Kofax Capture erfasst und durch Kofax Transformation Modules (KTM) klassifiziert und die gewünschten Geschäftsdaten werden dann ebenfalls mit KTM extrahiert.

Durch die frühzeitige Klassifizierung der Dokumente in KTM als Kündigung, kann die Versicherung zeitnah Aktionen starten, um den Kunden eventuell doch noch zu halten. Die dennoch verbleibenden durchzuführenden Kündigungsprozesse sollen dann möglichst automatisiert durchgeführt werden. Dazu musste mit KTM das im Schreiben angegebene Kündigungsdatum extrahiert werden, um damit die nachfolgenden Prozesse starten zu können.

Bei der Realisierung mit KTM Formatlokatoren und regulären Ausdrücken gab es Probleme mit der Datumsextraktion sobald Zeilenumbrüche innerhalb der zu suchenden Kündigungsformulierungen vorkamen. Im Folgenden wird erläutert wie wir diese Probleme mit KTM-Bordmitteln lösen konnten.

Bei Kündigungsschreiben existieren grundsätzlich zwei Arten, wie das Kündigungsdatum angegeben wird:

1. Explizite Angabe des Datums: … kündige ich zum 31.12.2016 meinen …

2. Indirekt Datumsangabe: … kündige ich den Vertrag zum nächstmöglichen Termin …

Beide Varianten kann man recht einfach mit KTM-Format-Lokatoren und regulären Ausdrücken verarbeiten.

1. Bei explizit angegebenem Datum kann man z.B. wie folgt vorgehen:

Der Lokator liefert dann, wie zu erwarten, das gewünschte Datum:

Werden allerdings die Worte aus den Evaluierungseinstellungen (zum, dem, usw.) vom eigentlichen Datum nicht durch Leerstellen, sondern durch einen Zeilenumbruch getrennt, versagt der Formatlokator:

Abhilfe schafft hier z.B. eine Kombination aus Formatlokatoren und einem Geometrieevaluator:

Ein Formatlokator sucht die Worte (zum, dem, usw.) am Zeilenende:

Das $-Zeichen sorgt dafür, dass nur die Worte an einem Zeilenende gefunden werden.

Ein weiterer Formatlokator sucht nur nach Datumsangaben, die zu Beginn einer Zeile stehen:

Das ^-Zeichen zu Beginn des regulären Ausdrucks sorgt dafür, dass nur Datumsangaben an einem Zeilenanfang gefunden werden.

Nun kann mit einem Geometrieevaluator nach allen Datumsangaben unterhalb des Wort-Formatlokators gesucht werden:

Anhand der entfernungsabhängigen Konfidenz kann man nun das Ergebnis des Geometrieevaluators akzeptieren.

Alternativ zum Geometrieevaluator könnte per Skript überprüft werden, ob das Resultat des Datums-Formatlokators eine Zeile unterhalb des Ergebnisses des Wortlokators liegt.

2. Bei den indirekten Datumsangaben bietet sich eine ähnliche Vorgehensweise an:

Liegt eine der indirekten Datumsangaben vor (zum nächstmöglichen Zeitpunkt, zum nächstmöglichen Termin, zum nächsten zulässigen Termin, usw.), war für die weitere Verarbeitung der Kündigung die Weitergabe eines Dummy-Datums gewünscht.
In diesen Fällen wird dann der 01.01.1970 weitergegeben.

Eine einfache Möglichkeit dies mit Formatlokatoren durchzuführen, wäre die folgende:

In der Praxis haben wir vom Fachbereich eine lange Liste mit möglichen Formulierungen bekommen. Der Umfang dieser Liste wird im weiteren Verlauf noch eine Rolle spielen.

Der Lokator liefert einen Treffer, sobald eine der Formulierungen im Dokument vorkommt:

Wird durch den Formatlokator eine der Formulierungen gefunden, muss das Datum per Skript nur noch auf den 01.01.1970 gesetzt werden.

Allerdings versagt auch hier der Formatlokator sobald die Worte einer der gesuchten Formulierungen durch einen Zeilenumbruch getrennt werden:

Aufgrund der Vielzahl der möglichen Wort-/Zeilenumbruchskombinationen ist hier keine einfache Lösung mit einem Geometrieevaluator möglich bzw. sinnvoll. Eine Lösungsmöglichkeit wäre die Suche nach den Formulierungen im von der OCR-Engine gelieferten Volltext des Dokuments.

Dabei wäre es natürlich vorteilhaft, wenn man im Skript die bereits im Formatlokator ‚DatumIndirekt‘ als RegEx definierten Formulierungen auslesen und benutzen könnte. Dadurch müssten die – in der Praxis sehr umfangreichen – Formulierungen nur in dem Formatlokator ‚DatumIndirekt‘ gepflegt werden.

Dazu muss das Skript zunächst einmal die im Formatlokator definierten Begriffe auslesen. Hierzu wird zunächst die zu KTM gehörende ‚Kofax Cascade Regular Expressions Locator‘-DLL in der Skript-Umgebung referenziert:

Im Skript können dann mit der folgenden Funktion die RegEx-Einträge (also die gewünschten Formulierungen) des Lokators ausgelesen und nach ihnen im OCR-Volltext gesucht werden:

1Function TermFound(ByVal pXDoc As CASCADELib.CscXDocument) As Boolean
2
3   'Returns True, if the terms from locator 'DatumIndirekt' are found within the OCR fulltext
4
5   Dim oLocator As CscRegExpLib.CscRegExpLocator
6   Dim i As Integer
7   Dim Terms() As String
8   Dim Fulltext As String
9
10   'Init Returncode with False
11   TermFound=False
12
13   'get Format Locator 'DatumIndirekt'
14   Set oLocator = Project.ClassByName("YourClass").Locators.ItemByName("DatumIndirekt").LocatorMethod
15
16   ReDim Terms(oLocator.RegularExpressions.Count-1)
17
18   'Put the RegEx-Expressions from Format Locator 'DatumIndirekt' into the array Terms()
19   For i=0 To oLocator.RegularExpressions.Count-1
20      Terms(i)= oLocator.RegularExpressions.ItemByIndex(i).RegularExpression
21   Next
22
23   'Now get the OCR fulltext from page 1
24   Fulltext=pXDoc.Pages.ItemByIndex(0).Text
25
26   'Remove empty spaces, CR and LF
27   Fulltext=Replace(Fulltext,Chr(9),"") 'Tab
28   Fulltext=Replace(Fulltext," ","") 'blank
29   Fulltext=Replace(Fulltext,Chr(13),"") 'CR
30   Fulltext=Replace(Fulltext,Chr(10),"") 'LF
31   '...
32
33   'Search for Terms() in Fulltext
34   For i=0 To oLocator.RegularExpressions.Count-1
35      If InStr(Fulltext,Terms(i))>0 Then
36         'Bingo! Return True
37         TermFound=True
38         Exit For
39      End If
40   Next
41
42End Function

Mit diesem Konstrukt muss man dann nur noch die Formulierungen im Lokator ‚DatumIndirekt‘ pflegen. Es werden dann alle Formulierungen sowohl mit als auch ohne ’störenden‘ Zeilenumbruch gefunden.

Will man die Formulierungen nicht direkt im Formatlokator pflegen, sondern eventuell in einer externen Textdatei, kann man eine ähnliche Technik verwenden, um die regulären Ausdrücke eines Formatlokators während der Laufzeit zu verändern. Siehe dazu:

Kofax Transformation Modules – Formatlokatoren und dynamische reguläre Ausdrücke

Kofax Transformation Modules – Formatlokatoren und dynamische reguläre Ausdrücke – Teil 2

War dieser Beitrag hilfreich?

Beitrag teilen

Gefällt mir

Blog-Autor*in

Jürgen Voss

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Weitere Beiträge

von Jürgen Voss

Spaß mit Flaggen: KTM – ein lockerer Rückblick auf 16 Jahre Kofax Transformation...

Anfang 2006 war ich bei DICOM beschäftigt, die einige Jahre zuvor Kofax gekauft hatten (ja, ich bin schon etwas älter). Da ich mit dem KTM-Vorgängerprodukt Ascent Advanced Forms schon einige Projekte erfolgreich durchgeführt hatte, durfte ich mich dann...

Digitalisierung

12.12.2022 | 2 Minuten Lesezeit

Jürgen Voss

Auslesen von deutschen Empfängeradressen mit Kofax Transformation Modules...

Das Auslesen von Adress-/Anschriftbereichen in Briefen war schon immer eine recht schwierige Problematik. Die Freude war umso größer, als Kofax vor einigen KTM-Versionen (Kofax Transformation Modules ) ein Werkzeug (Adress-Lokator) für das automatisierte...

NLP
Archivierung

7.3.2022 | 6 Minuten Lesezeit

Jürgen Voss

Natural Language Processing: Erweiterungen mit KTM 6.4

Im Frühjahr 2020 erhielt das Produkt Kofax Transformation Modules (KTM) mit dem Service Pack 6.3.1 ein neues Modul: Natural Language Processing (NLP). Natural Language Processing versucht, den Text des Dokuments zu analysieren, Wörter und deren Beziehungen...

Content Management
Archivierung
NLP

15.4.2021 | 2 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules: Natural Language Processing, sentiments ...

Kofax Transformation Modules (KTM) offers several tools for document classification and data extraction. There are some older blog articles about these tools: – Document classification – Data extraction with format locators – Machine Learning The...

Content Management
AI
Archiving
NLP

6.4.2020 | 8 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules: Natural Language Processing, Stimmungen ...

Kofax Transformation Modules (KTM) bietet diverse Werkzeuge, um Dokumente zu klassifizieren und Daten zu extrahieren. Diese Werkzeuge wurden bereits in früheren Blog-Artikeln erläutert: – Dokumentenklassifizierung – Datenextraktion mit Format-Lokatoren...

Content Management
NLP
Archivierung

16.3.2020 | 7 Minuten Lesezeit

Jürgen Voss

Document classification, data extraction and everything

Over time, a lot of posts about document classification and data extraction, using Kofax, among other products, have been published in the codecentric blog. This blog post will put these posts into context and point out the changes with regard to older...

Content Management
AI
Archiving

20.8.2019 | 6 Minuten Lesezeit

Jürgen Voss

Dokumentenklassifikation, Datenextraktion und der ganze Rest…

Im Laufe der Zeit gab es im codecentric-Blog viele Beiträge, die Dokumentenklassifikation und Datenextraktion zum Thema hatten. In diesem Beitrag möchte ich diese Artikel nochmal in einen Zusammenhang stellen und auf Neuerungen bei den älteren Beiträ...

Content Management
NLP
Archivierung

20.8.2019 | 7 Minuten Lesezeit

Jürgen Voss

Orientation problems with document processing (Kofax Transformation Modules...

Document classification and data extraction in business companies have to deal with paper documents, emails and faxes. The orientation of the digitized documents (0°, 90°, 180°, 270°) usually doesn’t matter. During OCR processing the system will recognize...

Content Management
Archiving
AI

7.7.2019 | 3 Minuten Lesezeit

Jürgen Voss

Orientierungsprobleme bei der Dokumentenerkennung (Kofax Transformation...

Bei der intelligenten Dokumentenklassifizierung und Datenextraktion von Eingangspost in Unternehmen müssen die Eingangskanäle Papier, Email und Fax berücksichtigt werden. Normalerweise ist die Orientierung der digitalisierten Dokumente (0°, 90°, 180°...

Content Management
NLP
Archivierung

7.7.2019 | 3 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules (KTM) – Dictionaries: Search by script

In addition to fuzzy databases KTM also offers so-called dictionaries for the optimization of recognition. For example these dictionaries can be used in the regular expressions of a format locator to find dates of the form “01. December 2015”. The dictionary...

6.7.2017 | 2 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules (KTM), AI and Machine Learning

The topics AI, machine learning and deep learning are on everyone’s lips, and the media regularly publishes articles on them. What many do not know is that Kofax Transformation Modules (KTM) also provides mechanisms of machine learning. KTM is a system...

5.6.2017 | 5 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules (KTM), KI und maschinelles Lernen

Die Themen „KI“, maschinelles Lernen und Deep Learning sind in aller Munde, und in den Medien erscheinen regelmäßig Artikel darüber. Was viele nicht wissen ist, dass Kofax Transformation Modules (KTM) „unter der Haube“ auch Mechanismen des maschinellen...

16.5.2017 | 5 Minuten Lesezeit

Jürgen Voss

CenterDevice und CenterScan – Scannen, Erkennen und sichere Ablage

CenterDevice ist ein Cloud-basiertes, professionelles Dokumentenmanagement- und Online-Collaboration-System. Im codecentric-Blog-Artikel CenterDevice und Kofax Capture – Integration out of the box wurde die einfache Integration von CenterDevice und...

8.2.2017 | 2 Minuten Lesezeit

Jürgen Voss

CenterDevice und Kofax Capture – Integration out of the box

Eine Standardaufgabe in vielen Unternehmen ist die Digitalisierung von eingehenden Papier-, Fax- und EMail-Dokumenten, deren Klassifizierung, Datenextraktion, sowie die sichere Ablage in einem Dokumentenmanagementsystem. In diesem Artikel soll kurz skizziert...

7.12.2016 | 3 Minuten Lesezeit

Jürgen Voss

Kofax Capture Validation Scripting – from SBL to VB.NET for Dummies

With Kofax Capture you can enter document index values in a validation screen or just confirm or changes values which have been recognized automatically. The validation screen form presents all fields of a document and the user has to confirm/change ...

8.6.2016 | 4 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules: SEPA Mandates and handwritten additional...

Within the last two years many companies had to ask their customers to sign the SEPA Direct Debit Mandates. It is an established procedure to send out forms with filled customer data (the SEPA Mandate). The customer signs the mandate and sends it back...

19.2.2016 | 5 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules (KTM): ‘free-form recognition’ for handwritten...

In contrast to form based recognition, the free-form recognition tries to find certain values (like an insurance number) somewhere on a document. It is helpful if the searched value has a structure that can be found with regular expressions. Furthermore...

NLP
Archiving

19.7.2015 | 4 Minuten Lesezeit

Jürgen Voss

Kofax Capture – Document Separation and Barcodes

A well known approach to separate documents at scan time is the use of barcode labels on the first page of a document. The barcode may also be put on a single separator sheet. If a batch of documents is scanned by Kofax Capture, the barcode will be recognized...

6.1.2015 | 4 Minuten Lesezeit

Jürgen Voss

IBM Content Collector for SAP (formerly known as IBM CommonStore for SAP...

IBM Content Collector for SAP (ICC/SAP) is an interface for SAP ERP-Systems and IBM archiving systems: IBM Content Manager, On Demand und TSM. SAP provides the standard interface ‘ArchiveLink’ for linking external archiving systems. ICC/SAP is certified...

Content Management
NLP
Archiving

22.7.2014 | 5 Minuten Lesezeit

Jürgen Voss

KTM and insurance companies: Document Process Automation

Many of our customers are using systems for automatic document classification and data extraction. ‘Kofax Transformation Modules’ (KTM) is one of these systems. These data capturing systems extract metadata out of the electronic images (these are ...

29.11.2013 | 5 Minuten Lesezeit

Jürgen Voss

Document classification with Kofax Transformation Modules (KTM)

22.3.2013 | 6 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules – format locators and dynamic regular expressions...

Part 2: Dynamic regular expressions in KTM In the first part of this blog article I explained the use of KTM format locators and regular epressions. Now I will try to explain how flexible KTM projects can be designed by using the KTM internal scripting...

1.2.2013 | 4 Minuten Lesezeit

Jürgen Voss

Kofax Transformation Modules – format locators and dynamic regular expressions

Part 1: An introduction to format locators and regular expressions Many of our customers are using systems for automatic document classification and data extraction. These data capturing systems extract metadata out of the electronic images (these are...

9.1.2013 | 5 Minuten Lesezeit

Jürgen Voss

Dein Job bei codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.

Absenden

Unterstützung eines automatisierten Kündigungsprozesses mit Kofax KTM

War dieser Beitrag hilfreich?

Ja

Blog-Autor*in

Kontakt aufnehmen

Kontakt aufnehmen

Weitere Beiträge

Spaß mit Flaggen: KTM – ein lockerer Rückblick auf 16 Jahre Kofax Transformation...

Auslesen von deutschen Empfängeradressen mit Kofax Transformation Modules...

Natural Language Processing: Erweiterungen mit KTM 6.4

Kofax Transformation Modules: Natural Language Processing, sentiments ...

Kofax Transformation Modules: Natural Language Processing, Stimmungen ...

Document classification, data extraction and everything

Dokumentenklassifikation, Datenextraktion und der ganze Rest…

Orientation problems with document processing (Kofax Transformation Modules...

Orientierungsprobleme bei der Dokumentenerkennung (Kofax Transformation...

Kofax Transformation Modules (KTM) – Dictionaries: Search by script

Kofax Transformation Modules (KTM), AI and Machine Learning

Kofax Transformation Modules (KTM), KI und maschinelles Lernen

CenterDevice und CenterScan – Scannen, Erkennen und sichere Ablage

CenterDevice und Kofax Capture – Integration out of the box

Kofax Capture Validation Scripting – from SBL to VB.NET for Dummies

Kofax Transformation Modules: SEPA Mandates and handwritten additional...

Kofax Transformation Modules (KTM): ‘free-form recognition’ for handwritten...

Kofax Capture – Document Separation and Barcodes

IBM Content Collector for SAP (formerly known as IBM CommonStore for SAP...

KTM and insurance companies: Document Process Automation

Document classification with Kofax Transformation Modules (KTM)

Kofax Transformation Modules – format locators and dynamic regular expressions...

Kofax Transformation Modules – format locators and dynamic regular expressions

Dein Job bei codecentric?

Agile Developer und Consultant (w/d/m)

Zur Stellenanzeige

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Unsere Leistungen

Hilf uns, noch besser zu werden.

Zu den Jobangeboten