Bild

ML4Print

Automatisierte Forensische Dokumenten- und Substratklassifizierung

Trotz des steigenden Digitalisierungsgrades finden sich wichtige Dokumente in gedruckter Form immer noch überall, wo es um Authentizität geht. Verbesserte Scanner- und Druckertechnologien führen jedoch zu mehr Dokumentenfälschungen. Gefälschte Ausweise sind integrale Voraussetzungen für z.B. Menschenhandel, terroristische Mobilität, grenz-überschreitende Kriminalität oder Sozialbetrug. Fälschungen von Geburts- und Heiratsurkunden führen zum Erhalt echter Ausweispapiere oder staatlicher Subventionen. Pro Fälschung entstehen leicht Schäden von bis zu 50.000€. Frontex bezeichnet den Dokumentenbetrug als eine der größten Herausforderungen bei der Grenzkontrolle in Europa. Bei der Detektion von Dokumenten­fälschungen ist die Identifizierung des Quelldruckers und des verwendeten Substrats (Papiers) von großer Bedeutung. Mit welcher Technik ein Dokument gedruckt wurde oder ob alle Seiten vom selben Drucker und auf demselben Papier produziert wurden, sind wertvolle Informationen, selbst wenn die primären Sicherheitsmerkmale erfolgreich kopiert wurden.

Hier setzt das Projekt „MLForPrint“ an: Während jedoch die manuelle forensische Dokumenten-Prüfungen Stunden dauern kann sowie die langjährige Erfahrungen des Prüfers erfordert und daher vergleichsweise selten zum Einsatz kommt, nutzt das Vorhaben hierfür automatisierte Verfahren auf Basis von Maschi­nellem Lernen. Es soll gezeigt werden, dass eine softwarebasierte und automatisierte Unter­suchung von Druck­erzeug­nissen und ubstraten eine Redu­zierung des Prüfaufwands bei vergleichbarer Genauigkeit bringen kann. Das Projekt setzt hierzu sogenannte Convolutional Neural Networks (CNNs) ein mit denen schon prototypisch gezeigt werden konnte, dass eine effiziente Klassifizierung von Dokumenten bzgl. Druck­bezo­gener Eigenschaften wie z.B. der Drucktechnik (wie Offset, Dry/Wet Toner oder Ink Jet) möglich ist.

Classification Neural Network
Classification Neural Network

Ziele des Vorhabens „MLforPrint“ sind zum einen eine Erforschung und Verbesserung der Robustheit des CNN gegenüber Störungen, die Fälscher gezielt nutzen könnten, zum anderen die Klassifizierung von Substraten, für die erstmals eine Softwarelösung demonstriert werden soll, die die Papiertypen, Alterungszustände und Zustandsprognosen aus Scans ableiten kann. 
Herausforderung einer gelernten, d.h. datenorientierten Herangehensweise ist es schnell auf unbekannte Dokumente und Texturen reagieren zu können. Für den Einsatz in der digitalen Forensik ist es weiterhin wichtig, die Erklärbarkeit des eingesetzten CNNs zu verbessern, um dessen Entscheidungen besser zu verstehen und Parameter des Netzes auf Einsatzzwecke zu optimieren.
Schlüsselfaktor der vorgestellten Lösung ist, dass sie Aufwand um bis zu 80 % gegenüber heutigen Methoden reduziert, und Schäden und Bedrohungen durch Verwendung gefälschter oder manipulierter Dokumente bekämpft. Dadurch hat die Anwendung ein breites Einsatzgebiet und ein großes Marktpotential, da es bislang keine vergleichbaren Systeme auf dem Markt gibt. Typische Anwender sind Institutionen wie Polizei- und Meldebehörden, BAMF, Straf­verfolgungsbehörden, Druckereien, Bibliotheken, Archive, Kunsthandel sowie Banken und Industrie.

Bild

Weitere Projektpartner: TECO (Karlsruhe), Japico (Dresden)

Dieses Verbundprojekt wird vom Bundesministerium für Bildung und Forschung (BMBF) gefördert. 
Fördermaßnahme KMU-innovativ: IKT, Projektträger DLR PT GI-DWS/SIS