IT Forensics

Robuste und effiziente Erkennung von ähnlichen Dateien

Die Datenmengen, die IT-Forensiker untersuchen müssen, werden immer größer. Deshalb müssen IT-forensische Verfahren effizienter werden. Ein wichtiger Ansatz hierbei besteht darin, bestimmte Datenanalysearbeiten zu automatisieren. Heute beruht dies oft auf der Wiedererkennung bekannter Inhalte. Dem IT-Forensiker hilft es, wenn sowohl kritische (blacklisting) als auch unkritische Inhalte (whitelisting) erkannt werden können; je mehr erkannt wird, desto weniger muss am Ende manuell überprüft werden. In der Praxis werden zur schnellen Erkennung kryptographische Hashes eingesetzt, mit denen jedoch nur exakt identische Dateien erkannt werden können. Dateien mit kleinen Änderungen gegenüber der Originaldatei können damit nicht erkannt werden. Besser wäre es, wenn sich auch ähnliche Dateien automatisiert erkennen ließen.

Die Ähnlichkeitssuche erlaubt das Aussortieren von forensisch irrelevanten Dateien während eines Analyseprozesses. Dadurch müssen sich Ermittler nicht mit der manuellen Überprüfung beschäftigen. Darüber hinaus lassen sich auch forensisch relevante Dateien erkennen, die absichtlich modifiziert wurden, um nicht erkannt zu werden. Mit Werkzeugen zur Erkennung ähnlicher Dateien können z.B. sowohl irrelevante Programmdateien effektiv aussortiert werden als auch Office-Dokumente nach Ähnlichkeit sortiert werden, so dass eine effizientere Sichtung durch den Untersuchenden möglich wird.

Neuer effizienter Algorithmus

Eine große Herausforderung bei der Entwicklung von Werkzeugen zur Ähnlichkeitssuche ist die Effizienz des Suchalgorithmus. Der Mangel an effizienten Lösungen verhindert den praktischen Einsatz von solchen Werkzeugen in der IT-Forensik. Dem Fraunhofer SIT ist mit der Entwicklung von Fast Forensic Similarity Search (F2S2) ein Durchbruch gelungen. Dieses Verfahren arbeitet um Größenordnungen schneller und effizienter als bisherige Lösungen. F2S2 wurde für die Klasse der sogenannten Piecewise Hashes entwickelt. Für die bekannten ssdeep-Hashes besteht bereits ein eigenes Software-Produkt, das lizenziert werden kann. Mit F2S2 kann man eine Effizienzsteigerung von mehr 99% im Vergleich zur ssdeep-Software erzielen.

Durch die Fokussierung auf Piecewise Hashes ist F2S2 insbesondere zur Erkennung ähnlicher Programmdateien und ähnlicher Office-Dokumente geeignet.

Die Software zu F2S2 wird in folgenden Varianten angeboten:

  • Programmbibliothek mit den Kern-Algorithmen von F2S2
  • F2S2-Software für ssdeep-Hashes mit graphischer Oberfläche, Kommandozeilenprogramm sowie API

Außer der Software bietet Fraunhofer SIT in diesem Zusammenhang auch:

  • Entwicklung kundenspezifischer F2S2-Varianten
  • Unterstützung bei der Integration von F2S2 in bestehende Forensik-Software