//

Kofax Capture – Dokumententrennung mit Barcodes

6.1.2015 | 4 Minuten Lesezeit

Ein seit langem verbreiteter Trennungsmechanismus für Dokumente beim Scannen mit Kofax Capture ist das Aufkleben von Barcodeetiketten auf die erste Seite eines Dokuments. Alternativ kann der Barcode auch auf einem Einzeltrennblatt aufgebracht sein. Beim Einscannen eines Dokumentenstapels wird dieser Barcode erkannt und dadurch wird der Beginn eines neuen Dokuments festgelegt.

Dies ist eine seit Jahren verwendete Technik, die allerdings zwei Schwachstellen beinhaltet:

1. Wird ein Barcode nicht erkannt, werden die Seiten des zugehörigen Dokuments als Folgeseiten an das vorherige Dokument angehangen. Damit ist das Dokument ‚verloren‘. Die Nichterkennung des Barcodes kann verschiedene Ursachen haben: der Barcode wurde geschwärzt oder der Barcode wurde durch Lochung o.ä. unlesbar.

2. Bis einschließlich Kofax Capture 9 konnte der Barcodewert standardmäßig nicht als Information für die Trennung genutzt werden. Kriterien waren bis dahin nur der Typ des Barcodes (Code 39, Interleaved 2 of 5, Code 128, …) und eine Mindestlänge des Barcodeinhalts (Stellenanzahl).


Dies konnte dazu führen, dass ‚Zombie‘-Dokumente entstanden. Enthielt nämlich eine der Folgeseiten eines Dokuments ebenfalls einen Barcode, der den beiden Kriterien (Typ and Länge) entsprach, wurde dieser Barcode ebenfalls als Trenner genommen und das ursprüngliche Dokument wurde in zwei Dokumente aufgespalten. Dieser Fall kam durchaus öfter vor, da ja auch die Ersteller der Dokumente (insbesondere bei Eingangspost) auch eigene Barcodeaufdrucke benutzen. Dem konnte nur durch mühsame Feinjustierung der Barcodeengine (Breite der Barcodebalken, Höhe der Barcodebalken), manuelle Schwärzung der Fremdbarcodes oder durch individuelle Programmierung entgegengewirkt werden.

Bei Schwachstelle 1. (Barcode nicht erkannt) hilft nur eine Sichtkontrolle der Dokumententrennung nach dem Scanvorgang. Dies kann in Kofax Capture noch in der Scananwendung geschehen und Korrekturen können direkt an den gescannten Dokumenten/Seiten durchgeführt werden.

Bei Schwachstelle 2. (Fremdbarcode wurde erkannt) ist ab Kofax Capture 10 standardmäßig eine Interpretation des Barcodewertes und dessen Nutzung zur Trennung möglich. Dazu kann man die Barcodewerte, die zur Dokumententrennung erlaubt sind über reguläre Ausdrücke definieren.

Der reguläre Ausdruck \b(93|92)\d{7 }\b beschreibt beispielsweise Werte, die mit 93 oder 92 beginnen und die dann noch 7 beliebige Ziffern enthalten. \b am Anfang und Ende des regulären Ausdrucks sorgen dafür, dass vor und nach dem Wert eine Wortgrenze existieren muss (Leerstelle, Tab, Zeilenanfang, Zeilenumbruch, usw.). Das sorgt dafür das die gesuchte Kombination nicht aus einer längeren Kombination, wie z.B. einer Produktnummer, herausgenommen wird.

‚ 931234567 ‚ würde so von dem regulären Ausdruck als gültig gemeldet, ‚4700000931234567‘ aber nicht.

In Kofax Capture 10 kann man den benötigten regulären Ausdruck in den Eigenschaften der Stapelklasse definieren. In den Einstellungen zur ‚Trennung und Formularidentifizierung‘ legt man dazu ein benutzerderfiniertes Trennungsprofil an:

Das selbstdefinierte Profil sieht folgendermaßen aus:

Hinter ‚BC-Typ‘ verbirgt sich der Typ des gewünschten Barcodes (Code 39, Interleaved 2 of 5, Code 128, …).

Bei Suchtext können Sie den gewünschten reguläre Ausdruck eingeben. Damit Kofax Capture den Suchtext als regulären Ausdruck interpretiert muss dann noch der Haken bei ‚Suchtext als regulären Ausdruck behandeln‘ gesetzt werden.

Mit diesem Vorgehen wäre die Schwachstelle 2, die nicht gewünschte Erkennung und Dokumententrennung durch einen Fremdbarcode, ausgeschaltet.

Allerdings gibt es noch eine Situation, in der die regulären Ausdrücke nicht direkt weiterhelfen. Bei manchen Anwendungen, beispielsweise beim späten Scannen mit Barcodes in einem SAP-Erfassungszenario, wird der Barcodewert nicht nur zur Dokumententrennung genutzt, sondern  der erkannte Barcodewert muss auch an die Geschäftsanwendung weitergegeben werden.

In Kofax Capture wird der bei der Dokumententrennung erkannte Barcode bzw. dessen Wert leider nicht für eine direkte Weiterverarbeitung zur Verfügung gestellt. Zu diesem Zweck existiert das Konstrukt ‚Barcodes auf Seitenebene‘ über das ALLE auf der Dokumentenseite erkannten Barcodes für die Verarbeitung zur Verfügung gestellt werden können. Existiert nur ein Barcode ist das natürlich genau der, der auch für die Dokumentrennung verantwortlich ist.

Bei mehreren vorhanden Barcodes stellt Kofax Capture alle erkannten Werte zur Verfügung. Mittels eines Kofax Capture Skripts (z.B. Validierskript) kann man nun überprüfen, welcher der Barcodewerte dem bei der Dokumententrennung verwendeten regulären Ausdruck entspricht und diesen Wert dann für die weitere Verarbeitung nutzen.

Bei Interesse kann ich gerne ein entsprechendes Beispiel in einem zukünftigen Blogartikel vorstellen.


Ältere Artikel über Kofax Capture und Kofax Transformation Modules:

Kofax Capture – Erweiterungsmöglichkeiten jenseits des Standards

Kofax Capture erweiterte Scan Api: Eine erste Annäherung

Kofax Transformation Modules – Formatlokatoren und dynamische reguläre Ausdrücke

Kofax Transformation Modules – Formatlokatoren und dynamische reguläre Ausdrücke – Teil 2

Dokumentenklassifizierung mit Kofax Transformation Modules (KTM)

KTM im Versicherungseinsatz: Heller, grauer und dunkler Posteingang

IBM Content Collector for SAP (formerly known as IBM CommonStore for SAP), Kofax Capture 10 und das IBM CommonStore Release Skript

Beitrag teilen

Gefällt mir

0

//

Gemeinsam bessere Projekte umsetzen

Wir helfen Deinem Unternehmen

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.