Hur laboratoriemöss hjÀlper till att upptÀcka Deepfakes

Hur laboratoriemöss hjÀlper till att upptÀcka Deepfakes

LAS VEGAS – “Jag ska tro det nĂ€r jag ser det med egna ögon!” En gĂ„ng en vanlig fras hĂ„ller detta uttalande bara inte lĂ€ngre vatten tack vare djupa falska videor, som manipulerar bilder för att förĂ€ndra mĂ€nniskors utseende och orden som kommer ut ur munnen.

Black Hat Bug Art

Att skapa en övertygande deepfake tar mycket tid och datorkraft, liksom trÀningsdatorer för att skilja mÀnniskor frÄn deepfakes. PÄ Black Hat-konferensen hÀr presenterade ett tvÀrvetenskapligt forskargrupp nÄgra nya idéer om hur man hanterar problemet, och tittar specifikt pÄ problemet med att generera röstljud som lÄter mÀnskligt.

George Williams, direktör för datavetenskap vid University of Oregon, pĂ„minde deltagarna om Orson Welles “War of the Worlds” -sĂ€ndningen 1938, en fiktiv berĂ€ttelse om en krigsinvasion som mĂ„nga trodde var verklig. “Rapporterna om panik kan ha varit överdrivna,” sa Williams, “men det Ă€r Ă€ndĂ„ anvĂ€ndbart att jĂ€mföra med hĂ€ndelserna i dag, i eran av desinformation och falska nyheter.”

“Den stora skillnaden,” fortsatte han, “Ă€r att du kan skapa högkvalitativt, realistiskt innehĂ„ll för desinformation. Verktyg Ă€r lĂ€ttillgĂ€ngliga och vissa Ă€r öppen kĂ€llkod. En parad av politiker och teknologiledare som varnar oss för en katastrof – en brunn -tidsbedrĂ€geri av en VD som sa nĂ„got de inte gjorde – som skulle kunna utlösa nĂ„gon form av katastrof. Det kan destabilisera en finansmarknad eller antĂ€nda en pulverlĂ„da av civila eller militĂ€ra konflikter runt om i vĂ€rlden, ett sant vĂ€rldskrig. “

Williams citerade en studie som utmanade mĂ€nniskor och algoritmer att skilja riktigt samtal frĂ„n genererat samtal. MĂ€nniskor fick det rĂ€tt ungefĂ€r 88 procent av tiden, medan algoritmen gjorde det bĂ€ttre pĂ„ 92 procent. “Det lĂ„ter bra”, sa han, “men tĂ€nk pĂ„ de miljoner innehĂ„llsartiklar som skapas dagligen. Även en liten felfrekvens innebĂ€r att vissa förfalskningar kommer igenom, och en del Ă€kta innehĂ„ll flaggas som falskt.”

Tekniker för Deepfake Creation

Alex Comerford, datavetare vid Bloomberg, granskade historien om genererat tal, frÄn Microsoft Mike 1999 till Googles Tacotron 2, som slÀpptes förra Äret. Varje iteration lÀt mer mÀnsklig Àn den förra.

“Via telefon skulle jag luras,” sa Comerford om Tacotron-provet.

En kraftfull teknik för att skapa dessa övertygande röster, kallad ett General Adversarial Network, stÀller tvÄ program mot varandra. Den ena försöker skapa en övertygande röst, den andra försöker skilja falska frÄn riktiga röster. Var och en blir bÀttre och bÀttre pÄ sin uppgift. En annan teknik som kallas bispektral analys, lÄnad frÄn signalbehandlingsvetenskap, visade sig ocksÄ vara effektiv.

“AvhĂ€mtningen Ă€r att detektering Ă€r ett katt- och musspel. Det som fungerar nu kanske inte Ă€r den lĂ„ngsiktiga lösningen”, sĂ€ger Comerford.

En biologisk metod

Jonathan Saunders, doktorand vid University of Oregon, tog diskussionen i en ny riktning, med hjĂ€lp av fonetik och neurovetenskap. “Tal Ă€r svĂ„rt”, noterade han. “Fonemen kommer snabbt i normalt tal. Rösterna Ă€r olika. Vi mĂ„ste kasta bort det som inte Ă€r informativt.”

“VĂ„rt hörselsystem Ă€r utformat för att vara lĂ€ttlöst,” fortsatte han. “Den mĂ„ste kollapsa överflödig, överlappande information. Syftet Ă€r bara att förstĂ„ tal.” Men hur gör vi det?

Han beskrev experiment utförda med hjĂ€lp av epilepsipatienter som redan har elektroder i hjĂ€rnan. “Men vi vet fortfarande vĂ€ldigt lite”, sa Comerford. “Tal Ă€r för snabbt och neuroner för smĂ„ för en typisk FMRI. SĂ„ vi vĂ€nde oss till …”

Möss? Verkligen?

Ja, de vÀnde sig till möss. Forskare har utbildat gnagare för att skilja mellan ljud frÄn liknande konsonanter. Mössen lÀr sig först med samma ljud varje gÄng, sedan med ljud frÄn olika högtalare.

“De Ă€r ganska bra pĂ„ det”, noterade Comerford. “De lĂ€r sig generaliserbara konsonantkategorier. De Ă€r ungefĂ€r 75 procent korrekta. Romanhögtalare och nya vokaler tappar genomsnittet, men bara cirka 10 procent.”

Ännu viktigare Ă€r att mössen fĂ„r fel pĂ„ olika sĂ€tt. “TvĂ„ olika möss jĂ€mfört med tvĂ„ uppsĂ€ttningar toner kommer att ha helt olika felmönster”, förklarade Comerford. Och till skillnad frĂ„n mĂ€nskliga volontĂ€rer kan forskare titta pĂ„ musens hörselbark under inlĂ€rning och testning.

Kommer tillbaka till det ursprungliga problemet, föreslog Comerford att bestĂ€mma exakt hur möss lĂ€r sig att göra konsonant skillnader skulle kunna informera de djupa falska detekteringsalgoritmerna. “MĂ€nniskor Ă€r ganska bra, men maskiner blir bĂ€ttre. Det verkliga sĂ€ttet att lösa detta problem kan ligga i att kombinera fonetik med neurala nĂ€tverk”, avslutade han.