Netzthemen: Was ist Deepfake?
Barack Obama nennt Donald Trump einen Vollidioten, Bill Hader verwandelt sich in Tom Cruise. Deepfake-Videos kursieren im Netz und wirken oft echt. Können wir unseren Augen noch trauen?
Angefangen hat der Hype um sogenannte „Deepfake-Videos“ 2017 auf der Diskussionsplattform Reddit. Ein Nutzer namens „deepfakes“ veröffentlichte dort Porno-Videos, in denen Emma Watson und Gal Gadot auftauchten. Zunächst wirkten die Filme echt – doch der Nutzer hatte mithilfe künstlicher Intelligenz die Gesichter der Pornodarstellerinnen in den Videos durch die der Promis ersetzt. Dafür hatte er eine eigene Software entwickelt: „FakeApp“.
Nach diesem Reddit-Nutzer werden ähnlich bearbeitete Videos oft Deepfakes genannt. Im Netz finden wir immer mehr davon – etwa das Video des US-amerikanischen Schauspielers Jordan Peele. Darin sagt Barack Obama Dinge wie: „Präsident Trump ist ein kompletter Vollidiot“. Später erscheint neben Obama das originale Video, in dem Peele Obama diese Worte in den Mund legt.
Auch der YouTube-Kanal „Ctrl Shift Face“ zeigt Deepfake-Videos. Die Macher tauschen die Gesichter von Schauspielern aus, lassen Jim Carrey statt Jack Nicholson in The Shining spielen. Aufmerksamkeit erregten sie jetzt mit einer Aufzeichnung von einer US-Late-Night-Show. In der Show imitierte der Schauspieler Bill Hader seinen Kollegen Tom Cruise, im Deepfake-Video trauen wir unseren Augen nicht: Haders Gesicht verwandelt sich nahtlos in das von Cruise.
Künstliche Intelligenz analysiert Datenberge und lernt daraus
Deepfake-Videos funktionieren mithilfe von künstlicher Intelligenz (KI) beziehungsweise ihrem Teilgebiet Deep Learning, dem tiefgehenden Lernen. Dabei wird erforscht, wie Maschinen lernen – mit sogenannten künstlichen neuronalen Netzen können sie sogar ähnlich lernen wie unser menschliches Gehirn: Sie erkennen Strukturen und Muster in Datenmengen. So können sie dann etwa aus einem Haufen Bilder die rausfischen, auf denen ein Hund ist.
Für uns Menschen ist das leicht. Wir lernen als Kind, wie ein Hund aussieht und was in etwa von einer Katze unterscheidet. Genauso muss das auch die Maschine erst lernen. Dafür füttern Entwickler sie mit unterschiedlichsten Hundefotos. Die Maschine analysiert diese Daten, lernt, was einen Hund ausmacht, und entwickelt Erkennungsmuster dafür. Diese Phase heißt auch initiales Training.
Danach lassen die Entwickler die Maschine Fotos untersuchen, die sie ihr im Training nicht gezeigt haben. Hat die Maschine gut gelernt, kann sie jetzt Fotos mit Hund erkennen und herausfiltern. Dabei ist sie viel schneller als ein Mensch und verbessert sich ständig selbst. Beim Deep Learning analysieren Maschinen also massenweise Daten, um aus ihnen zu lernen.
Problem: Videos gelten als vertrauenswürdig
Mit dieser Technik können sie auch Deepfakes erstellen. Denn je mehr Bild- und Videomaterial eine Maschine von einer Person hat, umso besser kennt sie deren Gesichtszüge, Mimik und Gestik. Für die Hader-Cruise-Verwandlung etwa gibt es von Tom Cruise natürlich Unmengen an Fotos und Videos im Internet. Die daraus erlernte Mimik von Cruise kann ein Programm so in das Video fügen, dass sie zu Bill Haders Mimik passt.
Im Obama-Video funktioniert das ebenso: Die Maschine wertet Bilder und Videos von Obama aus und lässt ihn mit der erlernten Mimik die Worte von Peele sprechen. Hinzu kommt, dass Peeles Stimme der von Obama sehr ähnelt, sodass hier auch unsere Ohren getäuscht werden. Das kann gefährlich werden. Denn wir wissen zwar, dass nicht alles im Internet stimmt – Videos vertrauen wir meist aber trotzdem, ohne darüber nachzudenken.
Auch Profi-Fakes sind meist nicht fehlerfrei
Außerdem glauben wir gern, was in unser Weltbild passt – das nennt man Bestätigungsfehler. Wenn Donald Trump per Video Nordkorea bedroht, erscheint uns das vielleicht plausibel und wir teilen das Video. Über Facebook oder YouTube verbreitet es sich rasend schnell, obwohl es vielleicht falsch ist und Donald Trump gar nichts damit zu tun hat. Auch privat können Deepfakes gefährlich werden, wenn sie für Mobbing missbraucht werden, indem etwa der Kopf von jemandem in ein Pornovideo montiert wird. Selbst offensichtlich falsche Videos sind verletzend.
Aber nicht nur Amateurfälschungen können wir erkennen, auch die guten Fakes haben oft kleine Fehler: Die Mimik wirkt oft unecht, die Übergänge zwischen Gesicht und Hals sowie den Haaren können unscharf sein. Und wenn die Maschine zum Lernen der Mimik kein Foto der Person mit geschlossenen Augen hatte, dann blinzelt die Person im falschen Video nicht.
KI entlarvt KI – doch die Fälscher reagieren
Wissenschaftler wollen gefälschte Videos mit künstlicher Intelligenz entlarven, damit nicht jeder fragwürdige Film von Menschen geprüft werden muss. So, wie die KI per Datenanalyse Deepfakes erstellen kann, kann sie sie auch erkennen. Dafür füttern die Forscher sie mit Fake-Videos und lassen sie darin Muster erkennen, die ein Mensch nicht sieht – etwa unnatürliche Kopfpositionen oder Blinzelmuster. Außerdem merkt die KI, wenn Mimik und Gesprochenes nicht zueinander passen.
Doch ist so ein Muster aufgedeckt, beheben die Fälscher ihren Fehler oft schnell. So achten sie mittlerweile darauf, dass die Leute in Fake-Videos blinzeln. Eine perfekte Fälschung ist heute noch sehr aufwendig, aber die Technik wird weiterentwickelt. Deepfakes zeigen einmal mehr: Wir sollten nicht alles glauben, was wir im Internet sehen und hören. Stattdessen sollten wir nachrecherchieren.