Kofax Capture – Dokumententrennung mit Barcodes

2 Kommentare

Ein seit langem verbreiteter Trennungsmechanismus für Dokumente beim Scannen mit Kofax Capture ist das Aufkleben von Barcodeetiketten auf die erste Seite eines Dokuments. Alternativ kann der Barcode auch auf einem Einzeltrennblatt aufgebracht sein. Beim Einscannen eines Dokumentenstapels wird dieser Barcode erkannt und dadurch wird der Beginn eines neuen Dokuments festgelegt.

Dies ist eine seit Jahren verwendete Technik, die allerdings zwei Schwachstellen beinhaltet:

1. Wird ein Barcode nicht erkannt, werden die Seiten des zugehörigen Dokuments als Folgeseiten an das vorherige Dokument angehangen. Damit ist das Dokument ‚verloren‘. Die Nichterkennung des Barcodes kann verschiedene Ursachen haben: der Barcode wurde geschwärzt oder der Barcode wurde durch Lochung o.ä. unlesbar.

2. Bis einschließlich Kofax Capture 9 konnte der Barcodewert standardmäßig nicht als Information für die Trennung genutzt werden. Kriterien waren bis dahin nur der Typ des Barcodes (Code 39, Interleaved 2 of 5, Code 128, …) und eine Mindestlänge des Barcodeinhalts (Stellenanzahl).


Dies konnte dazu führen, dass ‚Zombie‘-Dokumente entstanden. Enthielt nämlich eine der Folgeseiten eines Dokuments ebenfalls einen Barcode, der den beiden Kriterien (Typ and Länge) entsprach, wurde dieser Barcode ebenfalls als Trenner genommen und das ursprüngliche Dokument wurde in zwei Dokumente aufgespalten. Dieser Fall kam durchaus öfter vor, da ja auch die Ersteller der Dokumente (insbesondere bei Eingangspost) auch eigene Barcodeaufdrucke benutzen. Dem konnte nur durch mühsame Feinjustierung der Barcodeengine (Breite der Barcodebalken, Höhe der Barcodebalken), manuelle Schwärzung der Fremdbarcodes oder durch individuelle Programmierung entgegengewirkt werden.

Bei Schwachstelle 1. (Barcode nicht erkannt) hilft nur eine Sichtkontrolle der Dokumententrennung nach dem Scanvorgang. Dies kann in Kofax Capture noch in der Scananwendung geschehen und Korrekturen können direkt an den gescannten Dokumenten/Seiten durchgeführt werden.

Bei Schwachstelle 2. (Fremdbarcode wurde erkannt) ist ab Kofax Capture 10 standardmäßig eine Interpretation des Barcodewertes und dessen Nutzung zur Trennung möglich. Dazu kann man die Barcodewerte, die zur Dokumententrennung erlaubt sind über reguläre Ausdrücke definieren.

Der reguläre Ausdruck \b(93|92)\d{7 }\b beschreibt beispielsweise Werte, die mit 93 oder 92 beginnen und die dann noch 7 beliebige Ziffern enthalten. \b am Anfang und Ende des regulären Ausdrucks sorgen dafür, dass vor und nach dem Wert eine Wortgrenze existieren muss (Leerstelle, Tab, Zeilenanfang, Zeilenumbruch, usw.). Das sorgt dafür das die gesuchte Kombination nicht aus einer längeren Kombination, wie z.B. einer Produktnummer, herausgenommen wird.

‚ 931234567 ‚ würde so von dem regulären Ausdruck als gültig gemeldet, ‚4700000931234567‘ aber nicht.

In Kofax Capture 10 kann man den benötigten regulären Ausdruck in den Eigenschaften der Stapelklasse definieren. In den Einstellungen zur ‚Trennung und Formularidentifizierung‘ legt man dazu ein benutzerderfiniertes Trennungsprofil an:

KC10-Trenn85

Das selbstdefinierte Profil sieht folgendermaßen aus:

BC10-BC-RegEx

Hinter ‚BC-Typ‘ verbirgt sich der Typ des gewünschten Barcodes (Code 39, Interleaved 2 of 5, Code 128, …).

Bei Suchtext können Sie den gewünschten reguläre Ausdruck eingeben. Damit Kofax Capture den Suchtext als regulären Ausdruck interpretiert muss dann noch der Haken bei ‚Suchtext als regulären Ausdruck behandeln‘ gesetzt werden.

Mit diesem Vorgehen wäre die Schwachstelle 2, die nicht gewünschte Erkennung und Dokumententrennung durch einen Fremdbarcode, ausgeschaltet.

Allerdings gibt es noch eine Situation, in der die regulären Ausdrücke nicht direkt weiterhelfen. Bei manchen Anwendungen, beispielsweise beim späten Scannen mit Barcodes in einem SAP-Erfassungszenario, wird der Barcodewert nicht nur zur Dokumententrennung genutzt, sondern  der erkannte Barcodewert muss auch an die Geschäftsanwendung weitergegeben werden.

In Kofax Capture wird der bei der Dokumententrennung erkannte Barcode bzw. dessen Wert leider nicht für eine direkte Weiterverarbeitung zur Verfügung gestellt. Zu diesem Zweck existiert das Konstrukt ‚Barcodes auf Seitenebene‘ über das ALLE auf der Dokumentenseite erkannten Barcodes für die Verarbeitung zur Verfügung gestellt werden können. Existiert nur ein Barcode ist das natürlich genau der, der auch für die Dokumentrennung verantwortlich ist.

Bei mehreren vorhanden Barcodes stellt Kofax Capture alle erkannten Werte zur Verfügung. Mittels eines Kofax Capture Skripts (z.B. Validierskript) kann man nun überprüfen, welcher der Barcodewerte dem bei der Dokumententrennung verwendeten regulären Ausdruck entspricht und diesen Wert dann für die weitere Verarbeitung nutzen.

Bei Interesse kann ich gerne ein entsprechendes Beispiel in einem zukünftigen Blogartikel vorstellen.


Ältere Artikel über Kofax Capture und Kofax Transformation Modules:

Kofax Capture – Erweiterungsmöglichkeiten jenseits des Standards

Kofax Capture erweiterte Scan Api: Eine erste Annäherung

Kofax Transformation Modules – Formatlokatoren und dynamische reguläre Ausdrücke

Kofax Transformation Modules – Formatlokatoren und dynamische reguläre Ausdrücke – Teil 2

Dokumentenklassifizierung mit Kofax Transformation Modules (KTM)

KTM im Versicherungseinsatz: Heller, grauer und dunkler Posteingang

IBM Content Collector for SAP (formerly known as IBM CommonStore for SAP), Kofax Capture 10 und das IBM CommonStore Release Skript

 

Jürgen Voss

Jürgen Voss unterstützt unsere Kunden bei der Erfassung von Eingangsdokumenten, deren Klassifikation samt Datenextraktion und anschließendem Starten der Geschäftsprozesse.

Die erfassten Dokumente werden dabei in Dokumentenmanagement-systemen wie CenterDevice oder Archivsystemen sicher abgelegt. Dazu zählt auch die E-Mail-Archivierung und die Ablage über die SAP-Archivierungsschnittstelle ArchiveLink.

Share on FacebookGoogle+Share on LinkedInTweet about this on TwitterShare on RedditDigg thisShare on StumbleUpon

Kommentare

  • Stefano Di Nuto

    11. März 2015 von Stefano Di Nuto

    Hallo Jürgen. Danke für super Beitrag. Leider funktioniert es bei uns nicht. Habe folgender RegEx eingeben:

    \b(200)\d{4 }\b
    Haken ist gesetzt „Suchtest als regulären….“

    Wir möchten nur die BarCodes erkennen lassen, welche mit 200 anfangen, und dann noch 4 Folgezahlen haben. bsp. 2001234.
    Kofax Capture trennt aber nach jedem beliebigen Barcode (3to9); also Beispiel auch nach 4711 oder 153231333313.

    Gibt es noch einen Tipp? Danke und Gruss, Stefano

    • Jürgen Voss

      12. März 2015 von Jürgen Voss

      Hallo Stefano,

      das sieht so aus, als ob der reguläre Ausdruck gar nicht genutzt wird. Wäre er aktiv, würde ja bei den anderen Barcodewerten gar nicht getrennt werden. Habt ihr die Stapelklasse neu veröffentlicht? In einer KCNS-Umgebung: wurden die Stapelklassen auf die remote-Scanstations synchronisiert?

      Wenn danach die anderen Barcodewerte nicht mehr trennen (das ist ja das Ziel) und \b(200)\d{4 }\b aber auch nicht:
      entferne testweise mal die \b vorne und hinten. Ich hatte auch schon mal den Fall, dass bei machen Barcodes die Wortgrenzen nicht funktionierten.

      Gruss
      Jürgen

Kommentieren

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.