Nepvideo’s, waarbij hoofden en gesproken woorden van mensen met elkaar worden verwisseld, zijn ‘hot’. Theo Gevers, hoogleraar computerwetenschappen aan de Universiteit van Amsterdam (UvA) houdt zich bezig met het creëren en het detecteren van deep fake video’s.

We zien ze steeds vaker voorbijkomen op het internet. Filmpjes waarvan je denkt: is dit nu echt of niet? Een bekend filmpje is dat van voormalig president Barack Obama die Donald Trump ‘a total dipshit’ noemt. Totdat zijn stemdubbel in beeld komt en we zien dat niet Obama maar de Amerikaanse acteur Jordan Peele de woorden uitspreekt. We zien zowel Obama als Peele naast elkaar en alles dat Peele zegt, zien we ook Obama zeggen.

“We hebben hiervoor slechts een minuut film nodig van – in dit geval – een sprekende Obama”, vertelt Theo Gevers in zijn kantoor in het UvA-gebouw op het Amsterdamse Science Park. “De software berekent precies hoe de mimiek – inclusief hoofdbewegingen, spiertjes rondom de mond en knipperende ogen –  bij Obama moet zijn om de indruk te wekken dat hij een bepaalde tekst uitspreekt. Als we dan ook nog eens de stem horen die op die van Obama lijkt, is zo’n filmpje heel moeilijk van echt te onderscheiden.”

Emoties koppelen aan het gesproken woord

Deepfake video is in feite niets anders dan fotoshoppen met videobeelden, legt Gevers uit. De hoogleraar geeft binnen de UvA-spinoff 3D Universum leiding aan een groepje wetenschappers die zich toelegt op gezichtsanalyse door middel van kunstmatige intelligentie. “We proberen het menselijk gezicht zo nauwkeurig mogelijk in kaart te brengen zodat we daarna elke uitdrukking en emotie kunnen koppelen aan het gesproken woord. De software leert zichzelf door heel veel zogenaamde kunstmatige neurale netwerken aan elkaar te koppelen. Deze netwerken trainen we dan door miljoenen voorbeelden te laten zien van gezichten zodat de software uiteindelijk zelf kan bepalen dat een gezicht een gezicht is en weet hoe een gezicht beweegt.”

De technologie werkt nu ook ‘live’

Gevers opent een computerscherm waarop hijzelf te zien is op de ene helft van het scherm en Mark Rutte op de andere helft. Terwijl Gevers iets zegt, zien we Mark Rutte simultaan meepraten en lijkt het of hij de stem van Gevers heeft gekregen. “Nieuw is dat we de technologie nu ook ‘live’ z’n werk kunnen laten doen”, legt Gevers uit. “Wereldwijd zijn we een van de eersten die dit voor elkaar hebben gekregen.” Dit zet de fantasie in werking. Want wát nu als onze koning de jaarlijkse troonrede houdt en een hacker hem heel andere dingen laat zeggen? Zien we dan nog het verschil? “Steeds moeilijker”, meent Gevers. “Daarom is het belangrijk dat mensen zich bewust zijn van deze technologie. Net als met foto’s weten we nu ook van video’s niet of ze echt zijn. Maar we kunnen dat met onze software wél testen.”

Video laten analyseren

Gevers en zijn team richten zich vooral op dat laatste: het detecteren van deepfake video’s. Hiervoor heeft het speciale software ontwikkeld die binnenkort toegankelijk wordt gemaakt op de eigen website. Een app volgt daarna. “De kersverse technologie die hier achter zit, houden we geheim”, zegt Gevers, “zodat deze niet in verkeerde handen terechtkomt. Maar van de toepassing ervan kunnen mensen, bedrijven en overheden wél gebruikmaken. Ze kunnen straks een video uploaden en onze software weet dan of deze echt of nep is. Daarvoor analyseert het zo’n 50 duizend punten op een gezicht. De software geeft feilloos aan hoeveel en welke punten niet corresponderen met de werkelijkheid omdat bijvoorbeeld de schaduwwerking niet klopt met de realiteit.”

Een steeds betere ‘spamfilter’

Gevers voorspelt dat nepvideo’s de komende jaren steeds beter worden. “Het wordt pas écht interessant als we ook de echte stem van de persoon kunnen laten horen bij het sprekend gezicht. Daarvoor heb je echte gesproken teksten nodig van de betreffende persoon, anders klinkt de stem robotachtig. Of je vindt iemand die een stem heel goed kan nadoen. Hoe dan ook: ook voor de stem komen steeds betere oplossingen. En dus hebben we als het ware steeds sterkere ‘spamfilters’ nodig om nepvideo’s van echt te kunnen onderscheiden. Het zal een kwestie van wennen zijn. Maar bij foto’s is dat ook gelukt. Iedereen weet nu dat een foto geshopt kan zijn. En wil je dat écht zeker weten, dan laat je dat uitzoeken door een partij die daar de juiste software voor heeft.”

Een nieuwslezer die twintig talen spreekt

De technologie van nepvideo’s biedt volgens Gevers overigens ook veel mooie en nuttige toepassingen. “Denk aan een nieuwslezer die in twintig talen het nieuws kan brengen. Of acteurs die geen ondertiteling meer nodig hebben maar op een natuurlijke manier in alle talen kunnen spreken. En wat te denken van de game-industrie. Je kunt je eigen hoofd heel eenvoudig projecteren op avatars en deze natuurgetrouw laten meebewegen met het karakter.” Want waar de technologie nu vooral stopt bij het gezicht, is de volgende stap om deze door te trekken naar het hele lichaam. “Dat is waar we nu aan werken”, zegt Gevers. “Maar voor nu ligt onze focus op het beschikbaar maken van onze technologie voor private en publieke partijen. Daarvoor zoeken we nu samenwerking met mediabedrijven en overheidsinstellingen. Samen kunnen we ervoor zorgen dat de technologie op een goede manier wordt ingezet en dat iedereen zich bewust wordt van het fenomeen nepvideo’s.”

Meer weten? Bekijk de aflevering ‘Deep Fake News’ van VPRO Tegenlicht.

Deel dit:

Reacties