Textforensik mit NLP und maschinellem Lernen

Textdaten "zwischen den Zeilen" forensisch analysieren

Ein Großteil der weltweit verfügbaren Informationen liegt in Textform vor. Das Suchen nach relevanten Informationen im Text, um z.B. Texte nach Themen oder Stimmungen einzuordnen oder den Autor zu identifizieren, ist für viele Anwendungen wichtig.

Herausforderungen hierbei sind Unstrukturiertheit von Texten oder das Fehlen von Metadaten. Darüber hinaus existiert das Risiko, dass Texte unentdeckt kopiert oder manipuliert werden können, da sie praktisch von jedermann ohne Fachkenntnisse oder spezielle Werkzeuge vervielfältigt oder verändert werden können – noch einfacher als bei Digitalfotos, Videos oder Audiodaten.

Um trotzdem relevante Informationen aus Texten abzuleiten, lernen Sie in unserem Seminar Methoden der Natürlichen Sprachverarbeitung (NLP) und des maschinellen Lernens (ML) kennen. Der Kurs kombiniert Linguistik und Informatik. Ihnen werden Methoden der digitalen Textforensik vermittelt, mit Schwerpunkt auf NLP und ML. Sie lernen, wie Textdaten maschinenlesbar bereinigt und strukturiert und wie relevante Merkmale aus den verarbeiteten Texten gewonnen werden können.

Sie lernen verschiedene ML-Methoden kennen, etwa zum automatischen Klassifizieren von Texten oder zum Herauslesen von Stimmungen und Meinungen im Text. Ebenso lernen Sie Evaluierungstechniken kennen, mit denen Sie die Güte der ML-Verfahren messen können. Diese Kenntnisse werden Sie in praktischen Übungen am PC vertiefen, etwa mit den Werkzeugen NLTK, Spacy oder Pattern.

Zielgruppe

  • Mitarbeiter bei der Polizei und anderen Ermittlungsbehörden
  • Mitarbeiter in Forschungsabteilungen, bei Wirtschaftsprüfungsgesellschaften und Versicherungen 
  • Data Scientists
  • Marketing und Social Media Manager
  • Alle Fachkräfte, die textliche Informationen automatisiert und mithilfe des maschinellen Lernens verstehen, strukturieren und verarbeiten wollen, um für die eigene Organisation Wissen aus den Daten abzuleiten. 

Inhalt

  • Grundlagen digitaler Textforensik
  • Korpuserstellung und -strukturierung
  • Datenbereinigung (z.B. Rauschen aus Texten entfernen)
  • Werkzeuge des Preprocessings (NLTK, Spacy, Pattern, etc.)
  • Merkmalsextraktion (Feature Engineering), um Texte entsprechend der Problemstellung zu repräsentieren
  • Modellbildung
  • praxisnahe Übungen zu Anwendungsbeispielen: Erkennung von Schreibstilen, Sprachprofiling, Stimmungsanalyse in Texten, automatische Textklassifikation
  • Visualisierung der gewonnenen Informationen

Nach dem Seminar können Sie...

  • Grundlegende Problemstellungen hinsichtlich der Verarbeitung von Textdaten selbstständig lösen
  • Texte bereinigen, strukturieren sowie wichtige Merkmale erkennen bzw. extrahieren, um Texte entsprechend der Aufgabenstellung zu repräsentieren
  • Modelle bilden, mit deren Hilfe Texte klassifiziert werden können
  • Autorenstile erkennen, charakteristische Eigenschaften des Autors (z.B. Geschlecht, Alter, Bildungsniveau oder Sprachdialekte) bestimmen oder die Stimmung aus Texten ableiten

Dieses Seminar bietet Ihnen...

  • Vermittlung gängiger Methoden und Werkzeuge der digitalen Textforensik
  • Erkenntnisse aus dem aktuellen Forschungsstand in NLP und ML
  • Praxistipps aus unserer eigenen Gutachtertätigkeit in diesem Bereich
  • viele praxisnahe Übungen anhand von Fallbeispielen
  • Austausch mit Experten und Vernetzung mit anderen Anwendern der Computerlinguistik und der Text-Forensik

Voraussetzungen

  • Grundkenntnisse in der Programmiersprache Python; alternativ: Beherrschung einer anderen Hochsprache (z.B. Java, C, C++, C#)

Termine

  • 04. bis 06.06.2019 (Anmeldung bis 20.05.2019)

Ansprechpartner

Sascha ZmudzinskiStellvertretender Abteilungsleiter Media Security und IT Forensics

Telefon+49 6151 869-321
E-Mail senden

Stellenangebote

Fraunhofer SIT sucht wiss. Mitarbeiter/innen für den Bereich Cybersicherheit

Wir suchen zum nächstmöglichen Zeitpunkt engagierte und exzellente Wissenschaftlerinnen und Wissenschaftler für Cybersicherheit und Privatsphärenschutz, die den Aufbau des Nationalen Forschungszentrums für angewandte Cybersicherheit mitgestalten möchten. In diesem Zusammenhang sind mehrere Stellen mit Aufgaben zur fachlichen und personellen Leitung in Forschungs- und Entwicklungsprojekten zu besetzen.