KI lässt Papierdokumente neu aufleben
Künstliche Intelligenz schlägt eine Brücke zwischen der analogen und der digitalen Welt, indem sie die Inhalte gescannter Dokumente interpretiert und verwertbare Inhalte herausfiltert. Die Technologie kommt auch digital generierten Dokumenten zugute.
Die Verlagerung der Wirtschaft aufs Digitale lässt die Menge der gespeicherten Daten Jahr für Jahr ansteigen. Unternehmen können allerdings nur einen Bruchteil der darin enthaltenen Informationen geschäftlich verwerten. Business-Anwendungen brauchen strukturierte Daten als Input – mit den unstrukturierten Inhalten einer E-Mail, eines Office- oder PDF-Dokuments können sie in der Regel nicht viel anfangen.
Mit E-Mails oder Office-Dokumenten können Business-Anwendungen wenig anfangen.
Und dann gibt es noch die Aktenberge aus Papier, die – wenn überhaupt – nur zu einem kleinen Teil mit einer digitalisierten Version in den Business-Anwendungen des Unternehmens vertreten sind. Der Rest wird aufbewahrt, weil das Gesetz Aufbewahrungsfristen vorschreibt und weil darin Informationen lagern, die für das Unternehmen irgendwann eine Rolle spielen könnten.
KI kann semantisch interpretieren
Sowohl für Papierdokumente als auch für elektronisch generierte unstrukturierte Dateien gilt: Idealerweise wäre man in der Lage, aus den darin enthaltenen Informationen einen geschäftlichen Nutzen zu ziehen. Dank der Dokumentenverarbeitung mit Künstlicher Intelligenz ist man in den letzten Jahren dieser Vision ein Stück nähergerückt. Die meisten großen Hersteller von Dokumentenmanagement- und ECM-Systemen (Enterprise Content Management) statten ihre Software immer mehr mit entsprechenden Fähigkeiten aus, um verwertbare Informationen aus den Dokumenten herauslesen zu können.
Noch einen Schritt weiter geht Iron Mountain, weltgrößter Anbieter für Aktenarchivierung. Mit InSight betreibt das Unternehmen eine Content Service Platform in der Cloud, die Informationen aus digitalen Dokumenten und aus gescannten Papierdokumenten zusammenführt und sie Business-Anwendungen zur Verfügung stellen kann. Sie bietet damit die Möglichkeit, große Mengen an Dateien nahtlos zu durchsuchen, zu verwalten und zu analysieren.
Da Iron Mountain ein Full-Service-Dienstleister ist, der den Lebensweg von Dokumenten von ihrer Entstehung bis zur deren Vernichtung begleitet, hat er bei der Ausstattung der Plattform besonderen Wert auf die Informationsgewinnung aus unstrukturierten Daten gelegt. „Wir wissen, dass Informationen aus gelagerten Dokumenten ebenso wie Informationen über diese Dokumente sehr wichtig sind“, sagt Jens Wichert, Pre-Sales Solution Engineer bei Iron Mountain Deutschland.
Schritt für Schritt zur Verwertbarkeit
Aus diesem Grund erfüllt die Plattform zwei verschiedene Funktionen: Einerseits die Gewinnung von Informationen aus gescannten Dokumenten mittels KI, andererseits die Verwaltung der digitalen Dateien und deren Anreicherung mit Metadaten. InSight setzt dabei auf die KI-basierte Document-AI-Technologie der Google Cloud, die genau für diesen Zweck entwickelt wurde.
Besonders bei gescannten oder abfotografierten Dokumenten macht sich diese Technologie bezahlt. Die Scans werden zunächst in „saubere“ PDFs und DOC-Dateien umgewandelt. Als nächstes werden dies Dokumente klassifiziert und jeweils einer bestimmten Gattung zugeordnet, z.B. Formular, Rechnung, Quittung, etc. Außerdem werden sie mit bestimmten Attributen (Metadaten) versehen, um deren Weiterverarbeitung durch Business-Anwendungen zu erleichtern. Anschließend werden aus dem Inhalt des Dokuments bzw. dem Text Informationen extrahiert, die datenbanktauglich sind. Dazu gehören Personennamen, Orte, Adressen, Datumsangaben, Telefonnummern oder E-Mail-Adressen.
Manuelle Überprüfungen trainieren die Algorithmen, damit sie über die Zeit besser werden.
Wenn das System bei einzelnen Dokumenten Zweifel über die Interpretation seines Inhalts hat, kommt die sogenannte Human-in-the-Loop-Funktion ins Spiel. Wie der Name schon andeutet, wird in diesem Fall ein menschlicher Bearbeiter als letzte Instanz zur Überprüfung hinzugezogen. Die manuellen Überprüfungen und eine Reihe speziell für diesen Zweck entwickelter Tools helfen, die Genauigkeit der Inhaltserkennung zu erhöhen.
Ist auch dieser Schritt abgeschlossen, werden alle Angaben und Informationen in ein strukturiertes Dokumentformat konvertiert, damit sie nach den Vorstellungen des Kunden in dessen Anwendungen weiterverarbeitet werden können. Beispielsweise werden auf diese Weise Papierrechnungen in die Buchhaltungssoftware des Unternehmens importiert oder ausgefüllte Formulare mit persönlichen Daten nach den Regeln der EU-Datenschutz-Grundverordnung (DSGVO) aufbewahrt. Damit die Einhaltung der DSGVO auch für die InSight-Plattform gewährleistet ist, betreibt sie Iron Mountain für europäische Kunden in einem Rechenzentrum in Frankfurt am Main, das entsprechende Zertifizierungen vorweisen kann.