Hur laboratoriemöss hjälper till att upptäcka Deepfakes

LAS VEGAS – “Jag ska tro det när jag ser det med egna ögon!” En gång en vanlig fras håller detta uttalande bara inte längre vatten tack vare djupa falska videor, som manipulerar bilder för att förändra människors utseende och orden som kommer ut ur munnen.

Black Hat Bug Art

Att skapa en övertygande deepfake tar mycket tid och datorkraft, liksom träningsdatorer för att skilja människor från deepfakes. På Black Hat-konferensen här presenterade ett tvärvetenskapligt forskargrupp några nya idéer om hur man hanterar problemet, och tittar specifikt på problemet med att generera röstljud som låter mänskligt.

George Williams, direktör för datavetenskap vid University of Oregon, påminde deltagarna om Orson Welles “War of the Worlds” -sändningen 1938, en fiktiv berättelse om en krigsinvasion som många trodde var verklig. “Rapporterna om panik kan ha varit överdrivna,” sa Williams, “men det är ändå användbart att jämföra med händelserna i dag, i eran av desinformation och falska nyheter.”

“Den stora skillnaden,” fortsatte han, “är att du kan skapa högkvalitativt, realistiskt innehåll för desinformation. Verktyg är lättillgängliga och vissa är öppen källkod. En parad av politiker och teknologiledare som varnar oss för en katastrof – en brunn -tidsbedrägeri av en VD som sa något de inte gjorde – som skulle kunna utlösa någon form av katastrof. Det kan destabilisera en finansmarknad eller antända en pulverlåda av civila eller militära konflikter runt om i världen, ett sant världskrig. “

Williams citerade en studie som utmanade människor och algoritmer att skilja riktigt samtal från genererat samtal. Människor fick det rätt ungefär 88 procent av tiden, medan algoritmen gjorde det bättre på 92 procent. “Det låter bra”, sa han, “men tänk på de miljoner innehållsartiklar som skapas dagligen. Även en liten felfrekvens innebär att vissa förfalskningar kommer igenom, och en del äkta innehåll flaggas som falskt.”

Tekniker för Deepfake Creation

Alex Comerford, datavetare vid Bloomberg, granskade historien om genererat tal, från Microsoft Mike 1999 till Googles Tacotron 2, som släpptes förra året. Varje iteration lät mer mänsklig än den förra.

“Via telefon skulle jag luras,” sa Comerford om Tacotron-provet.

En kraftfull teknik för att skapa dessa övertygande röster, kallad ett General Adversarial Network, ställer två program mot varandra. Den ena försöker skapa en övertygande röst, den andra försöker skilja falska från riktiga röster. Var och en blir bättre och bättre på sin uppgift. En annan teknik som kallas bispektral analys, lånad från signalbehandlingsvetenskap, visade sig också vara effektiv.

“Avhämtningen är att detektering är ett katt- och musspel. Det som fungerar nu kanske inte är den långsiktiga lösningen”, säger Comerford.

En biologisk metod

Jonathan Saunders, doktorand vid University of Oregon, tog diskussionen i en ny riktning, med hjälp av fonetik och neurovetenskap. “Tal är svårt”, noterade han. “Fonemen kommer snabbt i normalt tal. Rösterna är olika. Vi måste kasta bort det som inte är informativt.”

“Vårt hörselsystem är utformat för att vara lättlöst,” fortsatte han. “Den måste kollapsa överflödig, överlappande information. Syftet är bara att förstå tal.” Men hur gör vi det?

Han beskrev experiment utförda med hjälp av epilepsipatienter som redan har elektroder i hjärnan. “Men vi vet fortfarande väldigt lite”, sa Comerford. “Tal är för snabbt och neuroner för små för en typisk FMRI. Så vi vände oss till …”

Möss? Verkligen?

Ja, de vände sig till möss. Forskare har utbildat gnagare för att skilja mellan ljud från liknande konsonanter. Mössen lär sig först med samma ljud varje gång, sedan med ljud från olika högtalare.

“De är ganska bra på det”, noterade Comerford. “De lär sig generaliserbara konsonantkategorier. De är ungefär 75 procent korrekta. Romanhögtalare och nya vokaler tappar genomsnittet, men bara cirka 10 procent.”

Ännu viktigare är att mössen får fel på olika sätt. “Två olika möss jämfört med två uppsättningar toner kommer att ha helt olika felmönster”, förklarade Comerford. Och till skillnad från mänskliga volontärer kan forskare titta på musens hörselbark under inlärning och testning.

Kommer tillbaka till det ursprungliga problemet, föreslog Comerford att bestämma exakt hur möss lär sig att göra konsonant skillnader skulle kunna informera de djupa falska detekteringsalgoritmerna. “Människor är ganska bra, men maskiner blir bättre. Det verkliga sättet att lösa detta problem kan ligga i att kombinera fonetik med neurala nätverk”, avslutade han.

Relaterade Artiklar

Back to top button