SeGen

IT-Sicherheit von generativer KI

Ob für die Urlaubsplanung, E-Mail-Formulierungen oder komplexere arbeitsorganisatorische Fragen und Aufgaben, Anwendungen generativer künstlicher Intelligenz sind im Alltags- und Arbeitsleben vieler Menschen angekommen. Allerdings kommen mit der Verbreitung von KI auch neue Angriffsvektoren ins Spiel, nämlich auf die KI-Modelle selbst. Wie sicher ist generative KI, und wie kann sie angegriffen werden? Diesen Fragen geht das Projekt SeGen (Security of Generative AI) auf den Grund.

Die Fraunhofer-SIT-Forschenden untersuchen verschiedene Angriffsvektoren auf KI-Modelle und entwickeln Angriffsszenarien sowie Gegenmaßnahmen, um GenAI besser zu schützen und damit auch den Einsatz im privaten und im Unternehmenskontext sicherer zu machen.

In SeGen arbeiten die Fraunhofer-Wissenschaftler und -Wissenschaftlerinnen mit Open-Weight-Modellen wie Deepseek, Teuken, Mistral, Qwen oder Llama. Diese Modelle bieten viele Vorteile, die interessant für Unternehmen und Wissenschaft sind. Dazu zählen etwa digitale Souveränität und Transparenz bei der Reproduktion von Ergebnissen. Die gewonnenen Erkenntnisse aus Open-Weight-Modellen können später auf private Modelle übertragen werden.

Was bedeutet Open Weight?

Die Gewichte eines Sprachmodells sind die im Training gelernten Gewichtungen der Verbindungen im neuronalen Netz. Durch die Anpassung dieser Gewichtungen im Training lernt das Modell, immer bessere Antworten zu geben. Openweight bedeutet, dass diese trainierten Gewichte öffentlich zugänglich gemacht werden.

Wie funktioniert das Training eines LLM?

Ein großes Sprachmodell (LLM) besteht aus Milliarden künstlicher Neuronen. Zwischen diesen bestehen Verbindungen. Jede dieser Verbindungen hat einen Zahlenwert, genannt Gewicht (weight). Diese Zahlen bestimmen, wie stark eine Information weitergegeben wird. Am Anfang sind die Gewichte zufällig. Der Trainingsalgorithmus berechnet dann Fehler und verändert die Gewichtungen, um diesen Fehler zu minimieren. Dieser Prozess wiederholt sich so lange, bis der Fehler nicht weiter minimiert werden kann. Nach den Anpassungen der Gewichtungen ist das Modell fertig trainiert. Die Gewichte enthalten das gesamte gelernte Wissen und die erkannten Muster der Trainingsdaten.

In SeGen untersuchen die Wissenschaftlerinnen und Wissenschaftler u.a. folgende Angriffsszenarien:

Backdoorangriffe

Angreifer könnten ein Open-Weight-Modell nehmen, die Gewichte, etwa durch manipulierte Adapter, verändern und so eine ungewollte Funktionalität (Backdoor) unbemerkt in das Modell bringen, die mit einem Trigger aktiviert wird.

Beispielsweise könnten sie …

… absichtlich falsche Fakten eintrainieren lassen,

… bestimmte Produkte bevorzugen, lassen oder

… ein Bias für oder gegen bestimmte Personengruppen eintrainieren.

Menschen können diese schädliche Funktionalität kaum entdecken, was diese Art von Angriff besonders gefährlich macht.

Manipulierte Adapter

Open-Weight-Modelle lassen sich mit verhältnismäßig wenig Aufwand für spezialisierte Zwecke einsetzen, über sogenannte Parameter-effiziente Adapter. Ein Beispiel: ein Unternehmen möchte ein Llama-Modell für eine technische Dokumentation anpassen. Dafür lässt es das originale Llama-Modell unverändert. Ein Adapter wird auf technischen Texten trainiert. Bei der Nutzung werden Basismodell und Adapter gemeinsam geladen. Das Ergebnis wirkt wie ein spezialisiertes Modell, obwohl nur ein kleiner Zusatz trainiert wurde. Das bietet den großen Vorteil, dass wenig Trainings-Hardware benötigt wird und Adapter leicht geteilt werden können.

Doch diese Adapter können missbraucht werden. Wenn ein Adapter bösartig manipuliert wurde, kann das ganze Basismodell + Adapter problematische Ergebnisse auswerfen. In SeGen untersuchen die Forschenden, wie man Adapter auf Manipulationen prüfen kann. Sie haben bereits eine Methode entwickelt, um Adapter zu klassifizieren. Damit können Nutzende ganz einfach feststellen, ob ein Adapter manipuliert wurde.

Jailbreaks

Ein weiterer Angriff ist das Ausschalten von Sicherheitsmechanismen in KI-Modellen (Jailbreaks). Über das sogenannte Alignment sind Schutzmechanismen in die Modelle eintrainiert, die Antworten auf Fragen verweigern, die Illegales beinhalten: Beispielsweise den Bau einer Bombe, das Herstellen von Drogen und dergleichen. Einige Neuronen im Netz des Modells werden zu Sicherheitsneuronen, die aktiv werden, wenn solche Fragen gestellt werden, und verweigern dann eine Antwort. Im Rahmen ihrer Untersuchungen zum Alignment-Prozess von KI-Modellen konnten die SeGen-Forschenden zeigen, dass die zugrunde liegenden Sicherheitsmechanismen überraschend fragil sind. Sie demonstrierten, dass sich bestehende Schutzvorkehrungen ohne Beeinträchtigung der Modellleistung umgehen lassen. Auf Basis dieser Erkenntnisse entwickeln sie nun robuste Gegenmaßnahmen zum Schutz vor derartigen Angriffen.

Über das Projekt

SeGen ist ein gemeinsames Projekt des Fraunhofer SIT und der Dieter-Schwarz-Stiftung am Standort Heilbronn. Das Projekt ist Anfang Juni 2026 gestartet und läuft bis Ende Juni 2027.