Mensch oder Maschine – wer hat das erstellt?

Kennzeichnung und Erkennung von KI-generierten Inhalten

1

Ein Bild vom Papst im weißen Daunen-Outfit, eine Hausarbeit über ein Goethe-Gedicht oder eine Falschmeldung im Zusammenhang mit dem Ukraine-Krieg – mit ChatGPT, Midjourney und anderen KI-Werkzeugen lassen sich unendlich viele künstliche Inhalte erzeugen. Doch Inhalte, die keinen Ursprung in der Realität haben, sondern ausschließlich durch den Einsatz generativer KI-Systeme entstanden sind, bergen neben Chancen auch vielfältige Risiken. Sie können beispielsweise in Desinformationskampagnen oder zu Betrugszwecken eingesetzt werden.

Daher gibt es vermehrt Forderungen, künstlich erzeugte Inhalte zu kennzeichnen. Dies kann in verschiedenen Stadien geschehen.

KI-Trainingsdaten kennzeichnen

Denkbar ist es, bereits die Daten zu kennzeichnen, mit denen überwachte Systeme wie ChatGPT, Dall E, Midjourney und Co. trainiert werden. Die Idee dahinter ist, dass ein Merkmal, welches in allen Daten vorhanden ist, auch in den darauf basierten neu generierten Inhalten zu finden ist. Zu unterscheiden sind dabei wahrnehmbare und nicht-wahrnehmbare Merkmale. Erstere entsprechen einem Senderlogo auf einem Fernsehbildschirm, zweitere einem maskierten Rauschen (einem digitalen Wasserzeichen).

KI-generierte Inhalte nachträglich kennzeichnen

Ebenso können die Inhalte erst nach dem Erstellen gekennzeichnet werden. Auch hier sind wahrnehmbare und nicht-wahrnehmbare Markierungen vorstellbar. Alternativ können künstlich erzeugte Inhalte in offen einsehbare Listen eingetragen werden. Die Kennzeichnung erfolgt dann im übertragenen Sinn durch das Vorhandensein in der Liste.

KI-generierte Inhalte maschinell erkennen und kennzeichnen

Da nicht sichergestellt werden kann, dass (böswillige) Anwender*innen eine Kennzeichnung beim Einsatz von KI durchführen, ist die dritte Alternative, künstlich erzeugte Inhalte zu erkennen und daraufhin zu kennzeichnen. Hier handelt es sich um IT-forensische Methoden. Sie untersuchen Inhalte nach Spuren einer künstlichen Herkunft. Werden sie fündig, werden die Inhalte entsprechend markiert. Dies kann beispielsweise durch Uploadfilter geschehen, also beim Einspeisen von Inhalten in soziale Medien.

Positivlisten

Ein anderer Ansatz verfolgt genau die gegenteilige Strategie. Wenn nicht sichergestellt werden kann, dass künstliche Inhalte gekennzeichnet werden, dann lassen sich vielleicht relevante echte Inhalte entsprechend kenntlich machen. Denkbar ist es, analog zu einer offen einsehbaren Liste künstlicher Inhalte eine Liste von belegt echten Inhalten zu erstellen.

Technische Herausforderungen

Die oben aufgeführten Ansätze zur Erkennung von KI-Inhalten bergen einige technische Herausforderungen. Schritte, die nach dem Erstellen und vor der Verbreitung durchgeführt werden sollen, sei es eine Markierung oder ein Eintragen in eine Liste, können nur dann erzwungen werden, wenn das generative System unter der Kontrolle einer gutwilligen Instanz ist. Wenn Angreifer Zugriff auf eigene Lösungen haben oder Open-Source-Lösungen nutzen und modifizieren können, ist ein Umgehen einfach möglich.

Das Verwenden von Listen, sei es eine für künstliche oder echte Inhalte, erfordert eine effiziente Eintragung und eine Verbindung zwischen Liste und Inhalt. Denkbar sind hier robuste Hashverfahren, die den Inhalt beschreiben, und digitalen Signaturen, die die Authentizität belegen. Durch die robusten Hashverfahren ist auch eine effiziente Suche nach Inhalten in der Liste umsetzbar.

Bei dem letzten Ansatz, also dem Einsatz von Listen mit echten Inhalten, stellt sich die Frage, wem hier vertraut wird. Wer hat das Privileg, Inhalte einzutragen und zu signieren, damit diese als verbindlich echt angesehen werden?

Mögliche Angriffe und Sicherheitsrisiken

Die Ansätze bergen allesamt auch weitere Sicherheitsrisiken. Markierungen im Inhalt, seien sie wahrnehmbar oder nicht, können entfernt werden. Sie stellen digitale Wasserzeichen dar, die bereits ausführlich erforscht sind. Eine Sicherheit gegen ein Entfernen in einem Szenario, bei denen viele Inhalte mit einer identischen Markierung versehen werden und das Vorhandensein des Wasserzeichens öffentlich verifiziert werden kann, wurde bisher (unseres Wissens) nicht erreicht.

Ebenso sind Angriffe bekannt, die Inhalte ohne großen Qualitätsverlust so verändern, dass ihr robuster Hash nicht mehr mit der Originalversion übereinstimmt. Somit kann ein Auffinden in entsprechenden Listen umgangen werden.

So sieht's aus: Beispiele für Bild-Kennzeichnungen