ML4Print (bis 02/2024)
Automatisierte Forensische Dokumenten- und Substratklassifizierung
Trotz des steigenden Digitalisierungsgrades finden sich wichtige Dokumente in gedruckter Form immer noch überall,
wo es um Authentizität geht. Verbesserte Scanner- und Druckertechnologien führen jedoch zu mehr Dokumentenfälschungen.
Gefälschte Ausweise sind integrale Voraussetzungen für z.B. Menschenhandel, terroristische Mobilität, grenz-überschreitende
Kriminalität oder Sozialbetrug. Fälschungen von Geburts- und Heiratsurkunden führen zum Erhalt echter Ausweispapiere
oder staatlicher Subventionen. Pro Fälschung entstehen leicht Schäden von bis zu 50.000€. Frontex bezeichnet
den Dokumentenbetrug als eine der größten Herausforderungen bei der Grenzkontrolle in Europa.
Bei der Detektion von Dokumentenfälschungen ist die Identifizierung des Quelldruckers und des verwendeten Substrats
(Papiers) von größter Bedeutung. Mit welcher Technik ein Dokument gedruckt wurde oder ob alle Seiten vom selben
Drucker und auf demselben Papier produziert wurden, sind wertvolle Informationen, selbst wenn die primären Sicherheitsmerkmale
erfolgreich kopiert wurden.
Hier setzt das Projekt „MLForPrint“ an: Während jedoch die manuelle forensische Dokumenten-Prüfungen Stunden dauern kann sowie die langjährige Erfahrungen des Prüfers erfordert und daher vergleichsweise selten zum Einsatz kommt, nutzt das Vorhaben hierfür automatisierte Verfahren auf Basis von Maschinellem Lernen. Es soll gezeigt werden, dass eine softwarebasierte und automatisierte Untersuchung von Druckerzeugnissen und Substraten eine Reduzierung des Prüfaufwands bei vergleichbarer Genauigkeit bringen kann. Das Projekt setzt hierzu sogenannte Convolutional Neural Networks (CNNs) ein mit denen schon prototypisch gezeigt werden konnte, dass eine effiziente Klassifizierung von Dokumenten bzgl. Druckbezogener Eigenschaften wie z.B. der Drucktechnik (wie Offset, Dry/Wet Toner oder Ink Jet) möglich ist.

Ziele des Vorhabens „MLforPrint“ sind zum einen eine Erforschung und Verbesserung der Robustheit des CNN gegenüber
Störungen, die Fälscher gezielt nutzen könnten, zum anderen die Klassifizierung von Substraten, für die
erstmals eine Softwarelösung demonstriert werden soll, die die Papiertypen, Alterungszustände und Zustandsprognosen
aus Scans ableiten kann.
Herausforderung einer gelernten, d.h. datenorientierten Herangehensweise ist es schnell auf unbekannte Dokumente und Texturen
reagieren zu können. Für den Einsatz in der digitalen Forensik ist es weiterhin wichtig, die Erklärbarkeit
des eingesetzten CNNs zu verbessern, um dessen Entscheidungen besser zu verstehen und Parameter des Netzes auf Einsatzzwecke
zu optimieren.
Schlüsselfaktor der vorgestellten Lösung ist, dass sie Aufwand um bis zu 80 % gegenüber heutigen Methoden reduziert,
und Schäden und Bedrohungen durch Verwendung gefälschter oder manipulierter Dokumente bekämpft. Dadurch hat
die Anwendung ein breites Einsatzgebiet und ein großes Marktpotential, da es bislang keine vergleichbaren Systeme auf
dem Markt gibt. Typische Anwender sind Institutionen wie Polizei- und Meldebehörden, BAMF, Strafverfolgungsbehörden,
Druckereien, Bibliotheken, Archive, Kunsthandel sowie Banken und Industrie.