Wieviel Erkennung braucht Dunkelverarbeitung ?

Keine Kommentare

In der Zeitschrift BIT wurde in der Ausgabe 05/2009 (S. 92) ein Artikel veröffentlicht, in dem das Projekt Digitalisierung des Posteingangs einer großen Krankenversicherung beschrieben wurde. Es wurde – selbstverständlich – ein Produkt zur Freiform-Erkennung der Belege eingesetzt, und der Artikel endete mit dem Satz, bezogen auf die Erfassung von Antragsformularen: „Die durchschnittliche maschinelle Auslesequote des kompletten Dokumentes, also die Bearbeitung des Dokumentes, ohne dass ein Sachbearbeiter tätig werden muss, liegt bei 50%. Die angegebene Dunkelverarbeitungsquote ist ein guter Wert und soll in Zukunft noch weiter optimiert werden.

Hoppla ! Entweder verstehe ich den Absatz nicht, oder die Kernaussage widerspricht meiner Vorstellung der Messung von Wirtschaftlichkeit in diesem Umfeld. Der Satz wirft die Fragen auf, wann Dunkelverarbeitung wirtschaftlich sinnvoll ist bzw. ob eine Wirtschaftlichkeit von Dunkelverarbeitung zwingend an der Existenz einer „guten“ maschinellen Erkennung gekoppelt ist. Man nähert sich der Tücke der Aussagen am Besten durch den Versuch einer (eigenen) Definition von Dunkelverarbeitung. Für mich ist Dunkelverarbeitung die maschinelle

  • Anreicherung
  • Bewertung
  • persistente Verbuchung

von geschäftsprozeßrelevanten Daten ohne Benutzerinteraktion (natürlich immer mit der Möglichkeit, den Vorgang abschließend „hell“ zu machen statt zu verbuchen). Typischerweise ist dies Teilmenge eines Geschäftsprozesses und muss nicht zwingend den gesamten Prozess umfassen. Insbesondere beinhaltet Dunkelverarbeitung für mich keine Aussage über die Ermittlung der zu verarbeitenden Daten. Diese führt häufig über einen Vorgang der (Freiform-)Erkennung von analogen Dokumenten und wird als Erfassung bezeichnet. Dabei sollte ein elementarer Bestandteil einer Erfassung immer die manuelle Nachkorrektur sein, also der Schritt, in dem die nicht oder nicht sicher erkannten Werte ergänzt bzw. korrigiert werden, um einen vollständigen Datensatz an die nachfolgende Verarbeitung liefern zu können. Diese architektonische Trennung von Erfassung (Erkennen und Nachkorrigieren) und Verarbeitung weist den Vorteil auf, dass nicht erkannte Felder nicht zwingend eine Sachbearbeiter-Interaktion nach sich ziehen, denn die Korrektur erfolgt an Stellen mit geringerer Kostenstruktur.

Die automatisierte Erfassung von Daten wird häufig in Verbindung mit Ansätzen bzw. Projekten zur Dunkelverarbeitung betrachtet, was zweifellos Sinn macht, jedoch ist die wirtschaftliche Abwägung des Einsatzes von Technologien zur Dunkelverarbeitung nicht zwangsläufig abhängig von der Existenz der Erkennung. Aussagen wie „wir haben jetzt eine Erkennungs-Software, da können wir endlich dunkel verarbeiten“ habe ich mehrfach gehört, allerdings teile ich diese simple Betrachtungsweise nicht. Im Extremfall kann Dunkelverarbeitung sogar wirtschaftlich sinnvoll sein, ohne dass Erkennungs-Technologien zum Einsatz kommen; mithin sollte eine Entflechtung der beiden Technologien vorgenommen werden.

Ein Beispiel:

Der Geschäftsvorfall „Anschriftenänderung“ in einer Versicherung gehört inhatlich zu den eher wenig komplexen. Erstaunlich, jedoch wahr, dass die automatisierte Extraktion der relevanten Daten (nämlich eine beliebige neue Adresse maschinell-freiform in einem Brief zu erkennen) bei weitem nicht so trivial ist wie man glauben mag und – auch bedingt durch den hohen Qualitätsanspruch an diese Daten – weit unterhalb von 50% liegen kann, was bedeutet, dass mehr als die Hälfte der relevanten Felder im Anschluss an die maschinelle Lesung manuell korrigiert oder nacherfasst werden müssen. Ist alleine anhand dieser Zahlen eine generelle Aussage zur Wirtschaftlichkeit von Dunkelverarbeitung für diesen Geschäftsvorfall möglich ? Die Antwort lautet nein. Diese Folgerung kann ohne Kenntnis weiterer Parameter schlichtweg nicht getroffen werden. Es ist vielmehr erforderlich, dass die Kosten

a) der Einrichtung der Erkennungstechnologie
b) der laufenden manuellen Nachkorrektur für die nicht erkannten Feldwerte
c) der Einführung einer Datenbewertung und einer Datenverbuchung, ergo der Dunkelverarbeitungs-Technologie

in Relation gestellt werden zum erwarteten Einsparpotenzial in der Sachbearbeitung. Daraus abgeleitet fällt es nicht schwer, ein Szenario zu konstruieren, in dem vollständig ohne Erkennung eine Wirtschaftlichkeit erzielt werden kann: Auch bei einem vollständigen Verzicht auf maschinelle Erkennung und der damit verbundenen 100%igen Vollerfassung (z.B. durch studentische Hilfskräfte) könnte sich ein Projekt durch die Einsparungen in der Sachbearbeitung durchaus rechnen.

Der Artikel beschreibt konkret die Messung der Erkennungsgüte anhand der vollständig „dunkel“ verarbeiteten (gemeint ist: erkannten) Anträge, also auf Dokumentebene. Das ist ebenfalls eine interessante, jedoch keine hinreichende Information. Von Bedeutung ist vielmehr der kumulierte Aufwand, der hinter der manuellen Korrektur steckt, und dieser kann nicht ausgedrückt werden in der Zahl der vollständig sicher gelesenen Dokumente, sondern in der Zahl der vollständig sicher gelesenen Felder. Nur diese ist zur Betrachtung des Aufwandes und damit als eine Grundlage einer Berechnung der Wirtschaftlichkeit heranzuziehen.

Fazit:

1) Eine Erkennungslösung sollte immer mit einer zugehörigen Nachkorrektur-Anwendung eingesetzt werden, um Kostenvorteile realisieren zu können.

2) Die Techniken zur Erfassung und Dunkelverarbeitung gehören projekttechnisch und in der wirtschaftlichen Betrachtung durchaus zusammen, denn die Existenz von geschäftsprozessrelevanten Daten ist Voraussetzung einer „dunklen Verarbeitung“. Allerdings reicht die Betrachtung der Erkennungsgüte bei weitem nicht aus, um Aussagen über die gesamte Wirtschaftlichkeit zu tätigen. Im Extremfall kann „dunkle Verarbeitung“ auch wirtschaftlich erfolgen an vollständig manuell erfassten Daten.

3) Erkennung und Dunkelverarbeitung zielen auf einen Effiziengewinn, jedoch auf unterschiedlichen Ebenen: Erkennung gestaltet Datenerfassung wirtschaftlich, Dunkelverarbeitung die Bewertung und Verbuchung von Daten.

4) Erkennungsgüte wird auf Feldebene gemessen werden müssen, nicht auf Dokumentebene.

Christian Böhnel

Christian war in den vergangenen Jahren maßgeblich für den Aufbau des Bereiches Document Solutions verantwortlich. Gemeinsam mit seinem Team betreut er inzwischen nahezu 200 Kunden bei ihren Vorhaben zur Automation von dokumentenbasierenden Prozessen.

Share on FacebookGoogle+Share on LinkedInTweet about this on TwitterShare on RedditDigg thisShare on StumbleUpon

Kommentieren

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.