Revisionssicheres Dokumentenmanagement

Das Ziel

Ein Einzelhändler möchte in einem zentralen Dokumentenmanagementsystem sämtliche Dokumente seiner Filialen archivieren. Erfasst werden alle Daten, beginnend mit der Planung des Standortes, über den Regelbetrieb, bis hin zur Schließung.

Alle Daten sollen revisionssicher gespeichert werden, können also während gesetzlicher Aufbewahrungsfristen nicht bearbeitet oder gelöscht werden.

Eine Suche über Inhalt und Metadaten soll in Echtzeit das Auffinden von Dokumenten ermöglichen. Über ein Rollen und Rechtesystem soll der Zugriff auf Dokumente nur für Benutzer möglich sein, die nach dem Need-to-Know Prinzip diese im Rahmen ihrer Tätigkeit benötigen.

Die Herausforderung

Die Menge der zu verarbeiteten Daten ist enorm. Der Einzelhändler betreibt weltweit tausende Filialen. Für eine Filiale fallen im Laufe der Zeit einige hunderttausend Dokumente an, z.B.:

  • Baupläne
  • Arbeitsverträge
  • Lieferantenverträge
  • Wartungsprotokolle

Viele Dokumente müssen für eine Archivierung erst digitalisiert werden. Für eine Indizierung der Inhalte muss der enthaltene Text erkannt und extrahiert werden. Weitere Dokumente werden von Drittanwendungen bereitgestellt, die über geeignete Schnittstellen in das Dokumentenmanagement integriert werden müssen.

Für eine revisionssichere Archivierung müssen bestimmte Dokumente unveränderlich abgespeichert werden. Je nach Art des Dokuments und anwendbarer nationaler Regelungen kann diese Dauer variieren.

Die Lösung

Zur Erfüllung der Anforderungen wurde eine individuelle Lösung auf Basis von Java und Spring entwickelt. Für optimale Skalierung wurde das Dokumentenmanagementsystem auf Basis einer Microservice Architektur konzipiert. Bei Ressourcenengpässen kann auf zusätzliche Kapazitäten aus der Azure Cloud zugegriffen werden. Die Client Anwendung ist in Angular geschrieben und greift via REST API auf die Services zu, so kann jeder User global via Browser auf die Anwendung zugreifen, ohne zusätzliche Software installieren zu müssen.

Für eine beschleunigte Suche werden Metadaten in einer MongoDB gespeichert, die bei der Indizierung dieser Daten klare Performancevorteile gegenüber einer normalisierten SQL Datenbank bietet. Die Dokumenteninhalte werden mit Apache Solr indiziert. Eine automatische Texterkennung von gescannten Daten wird durch den Einsatz von Apache Tika / Tesseract ermöglicht.

Bestehende Systeme werden über einen Enterprise Service Bus (ESB) angeschlossen.

Für eine revisionssichere Archivierung werden die Dokumente in einem speziellen WORM-Speicher abgelegt. Einmal gespeichert, können diese Daten nicht mehr verändert oder gelöscht werden.

  • Revisionssichere Archivierung
  • Anbindung bestehender Systeme
  • Automatische Texterkennung (OCR)
  • Freitext Suche nach Inhalten und Metadaten