Deepfakes: Wie KI täuschend echte Bilder und Stimmen erzeugt - Technologie erklärt

Deepfakes: Die täuschend echte Welt der KI-generierten Medien

Deepfakes wirken oft verblüffend realistisch – doch wie entstehen diese durch Künstliche Intelligenz (KI) erzeugten Bilder, Stimmen und Videos eigentlich? Ein Digitalexperte erläutert detailliert die zugrundeliegende Technologie und ihre Entstehungsprozesse.

Rechtliche Definition und technische Faszination

Mithilfe von Künstlicher Intelligenz ist heute vieles möglich, insbesondere die Erstellung von Deepfakes. Der sogenannte AI Act, das weltweit erste umfassende Gesetz der Europäischen Union zur Regulierung von KI, liefert eine klare Definition dieser Technologie. In Artikel 3, Absatz 60 heißt es: „Einen durch KI erzeugten oder manipulierten Bild-, Ton- oder Videoinhalt, der wirklichen Personen, Gegenständen, Orten, Einrichtungen oder Ereignissen ähnelt und einer Person fälschlicherweise als echt oder wahrheitsgemäß erscheinen würde.“

Aus Sicht des Digital-Branchenverbands Bitkom stellen Deepfakes eine besondere Form synthetischer Medien dar – technisch äußerst faszinierend, aber im Zusammenhang mit Desinformation oder Cyberkriminalität eine neue gesellschaftliche Herausforderung.

—

Breites Pickt-Banner — kollaborative Einkaufslisten-App für Telegram

Wie Deepfakes entstehen: Drei entscheidende Schritte

Deepfakes lassen sich mit sogenannten generativen KI-Modellen erstellen. „Diese Systeme werden mit Bild-, Audio- oder Videodateien trainiert“, erklärt Bitkom-Experte Marvin Pawelczyk. Die Systeme lernen typische Muster eines Gesichts oder einer Stimme und können diese anschließend auf neues Material übertragen. „Teilweise reichen dafür wenige Sekunden Video- oder Tonaufnahmen oder einige Bilder, mit mehr Material wird das Ergebnis dann besser“, so Pawelczyk weiter.

Vereinfacht gesagt durchlaufen Deepfakes drei wesentliche Entstehungsphasen:

Datensammlung: Fotos, Videos oder Sprachaufnahmen einer Person werden gesammelt – häufig aus sozialen Netzwerken oder von öffentlichen Auftritten. Diese Daten bilden die Grundlage für das Training der KI.
Training des Modells: Eine Künstliche Intelligenz analysiert diese Daten intensiv und lernt, wie das Gesicht oder die Stimme in unterschiedlichen Situationen aussieht oder klingt. Dabei erkennt sie feinste Nuancen und Muster.
Synthese: Das gelernte Muster wird schließlich auf fremdes Material übertragen – etwa auf den Körper einer anderen Person oder auf einen neuen Text, den die KI in der imitierten Stimme vorliest. Dieser Schritt erzeugt den eigentlichen Deepfake.

Technische Möglichkeiten und ethische Implikationen

Die Technologie hinter Deepfakes entwickelt sich rasant weiter. Während früher umfangreiches Ausgangsmaterial notwendig war, genügen heute oft nur wenige Sekunden Audio oder Video für überzeugende Ergebnisse. Diese Entwicklung macht die Technologie zugleich zugänglicher und potenziell problematischer.

Die Qualität der Ergebnisse hängt maßgeblich von der Menge und Qualität der Trainingsdaten ab. Je umfangreicher das Ausgangsmaterial, desto überzeugender und realistischer fällt der finale Deepfake aus. Diese technische Präzision stellt Gesellschaft, Politik und Rechtssystem vor neue Fragen im Umgang mit digitaler Identität und Medienvertrauen.