Det Àr dÀrför AI-företag mÄste lyssna pÄ dina röstinspelningar

Det Àr dÀrför AI-företag mÄste lyssna pÄ dina röstinspelningar

I slutet av augusti slÀppte moderkortet nyheterna om att Microsoft hade delat röstinspelningar av Xbox-anvÀndare med entreprenörer för att förbÀttra funktionaliteten hos sin AI-drivna röstassistent. Tidigare samma mÄnad avslöjade en annan rapport att Microsoft delade Skype-inspelningar och Cortana röstkommandon med entreprenörer för att förbÀttra chattplattformens tjÀnster. NÄgra av inspelningarna innehöll intimt innehÄll.

Microsoft Àr bara ett av flera företag som anstÀller mÀnskliga arbetare för att lyssna och kommentera anvÀndargenererad data. Under de senaste mÄnaderna har liknande program pÄ Google, Amazon, Facebook och Apple, som har etablerat sig som en föresprÄkare för anvÀndarnas integritet, avslöjats.

NÀr röstaktiverade assistenter och chatbots blir alltmer populÀra, stÄr teknikföretag inför en svÄr utmaning: Deras AI-algoritmer Àr inte gjorda för att hantera komplexiteten i mÀnskligt sprÄk och de misslyckas ofta med att förstÄ innebörden av kommandon och meningar som deras anvÀndare sÀga.

För tillfÀllet Àr den enda lösningen att anstÀlla mÀnniskor för att styra dessa AI-algoritmer i rÀtt riktning. Och det krÀver ofta att dessa arbetare lyssnar pÄ anvÀndarnas intima samtal för att transkribera och kommentera dem.

Utmaningen att förstÄ sprÄk

Röstbaserade assistenter som Alexa, Siri och Cortana Àr skyldiga sina möjligheter till framsteg inom djupinlÀrning, en gren av artificiell intelligens som har blivit mycket populÀr de senaste Ären. Deep-learning algoritmer Àr sÀrskilt bra pÄ att hitta mönster och klassificera information.

NÀr du tillhandahÄller en djupinlÀrningsalgoritm med miljontals röstinspelningar och deras motsvarande texter kan den transkribera nya ljudutdrag med mycket hög noggrannhet. DjupinlÀrning Àr ocksÄ bra för förutsÀgelse: NÀr du trÀnar en AI-algoritm pÄ en stor textkropp utvecklar den komplexa matematiska representationer av olika ordsekvenser och kan utföra uppgifter som att automatiskt fylla i meningar.

anslutna sociala medierTja, kanske inte. Men Facebook hoppas att AI kommer att frigöra ditt nyhetsflöde av nazister, bots och falska nyheter. RÀtt

Men djupinlÀrning kÀmpar med att förstÄ betydelsen av ord och meningar, en uppgift som inte kan utföras med ren matematik och statistik.

“TaligenkĂ€nning och naturlig sprĂ„kförstĂ„else kan lĂ„ta som liknande problem, men de Ă€r faktiskt helt olika”, sĂ€ger Gary Marcus, kognitiv forskare och grundare och VD för Robust.AI. “I taligenkĂ€nning har du ett begrĂ€nsat antal stavelser och fonem pĂ„ ditt sprĂ„k, och du försöker översĂ€tta en ljudström till nĂ„got som tillhör en mycket liten uppsĂ€ttning kategorier.”

Det engelska sprÄket har tiotusentals vanligt förekommande ord, och i storÄldersÄldern kan du enkelt hitta miljoner exempel pÄ var och en för att trÀna djupinlÀrningsmodeller. Men att analysera meningar och tolka deras betydelser Àr en helt annan anstrÀngning. Det finns otaliga möjliga meningar, alla med en unik betydelse. Och betydelsen av ord varierar beroende pÄ var de Àr i en mening och vad som föregÄr eller följer dem.

“Förutom nĂ„gra smĂ„ meningar Ă€r nĂ€stan alla meningar du hör originala. Du har inga data direkt om det. Och det betyder att du har ett problem som handlar om inferens och förstĂ„else”, sĂ€ger Marcus. “De tekniker som Ă€r bra för att kategorisera saker, lĂ€gga dem i soptunnor som du redan kĂ€nner, Ă€r helt enkelt inte lĂ€mpliga för det. Att förstĂ„ sprĂ„k handlar om att koppla det du redan vet om vĂ€rlden med vad andra mĂ€nniskor försöker göra med orden de sĂ€ger.”

I sin nya bok, Rebooting AI (coauthored with New York University professor Ernest Davis), förklarar Marcus nÄgra av de utmaningar som möter samtida AI nÀr den dechiffrerar betydelsen av mÀnskligt sprÄk. En av de saker som vi tar för givet Àr den allmÀnna kunskapen om vÀrlden som vi alla har och hur vi anvÀnder denna kunskap för att lösa upp tvetydigheterna i det talade och skriftliga sprÄket.

Vardagliga samtal Ă€r fyllda med sĂ„dana tvetydigheter. TĂ€nk till exempel pĂ„ den hĂ€r meningen, som Marcus och Davis undersöker i sin bok: “Elsie försökte nĂ„ sin moster i telefon, men hon svarade inte.” Detta Ă€r en enkel mening. Men den innehĂ„ller ocksĂ„ flera tvetydigheter som du som mĂ€nniska lĂ€tt kan lösa. NĂ€r du hör meningen mĂ„ste du omedelbart veta att “nĂ„” betyder “att kommunicera” och inte “fysiskt nĂ„ ut”, “pĂ„ telefonen” betyder “genom att anvĂ€nda telefonen” och inte “fysiskt pĂ„ telefonen” och “hon “Ă€r en hĂ€nvisning till Elsies moster och inte till Elsie sjĂ€lv. Det hĂ€r Ă€r alla slutsatser du kan göra utan att tĂ€nka igen eftersom du vet vad en telefon Ă€r, vad den anvĂ€nds till och hur processen att ringa ett samtal fungerar.

Den oÀndliga trÀningscykeln

Djupt lÀrandes brist pÄ sunt förnuft och kunskap om vÀrlden gör att teknikföretag inte har nÄgot annat alternativ Àn att fortsÀtta trÀna sina AI-modeller med fler och fler exempel, i hopp om att de sÄ smÄningom kommer att tÀcka alla möjliga sÀtt att sÀga de saker som deras AI-assistenter ska göra. Det Àr dÀrför de behöver hjÀlp av mÀnskliga arbetare, vanligtvis avlÀgsna och underbetalda, som kan utvÀrdera prestanda för sina AI-algoritmer, eller transkribera och kommentera anvÀndarinspelningar som AI-algoritmer inte kan dechiffrera.

Men med tanke pÄ de oÀndliga sÀtten pÄ vilka mÀnniskor kan uttrycka saker kommer mer trÀning att bli en band-Aid-lösning. Det kommer alltid att finnas avvikelser, scenarier som AI inte har utbildats för att hantera; och mÀnskligt sprÄk Àr dynamiskt och stÀndigt under utveckling. Allt detta krÀver mer utbildning, vilket innebÀr att du kommer att höra fler berÀttelser om fjÀrranstÀllda som lyssnar pÄ dina privata konversationer.

Vad Àr artificiell intelligens?

“Svagheten med den nuvarande teknologin Ă€r att den Ă€r otroligt datahungrig, sĂ€rskilt i öppna problem som naturligt sprĂ„kförstĂ„else. SĂ„ företagen Ă€r desperata att försöka fĂ„ den informationen”, sĂ€ger Marcus. “Jag tror inte att det verkligen kommer att lösa deras problem Ă€ndĂ„. Det kommer att hjĂ€lpa lite, men det kommer inte att lösa det.”

Utan ett sĂ€tt att bĂ€dda in sunt förnuft och grundlĂ€ggande kunskap i djupinlĂ€rningsalgoritmer kommer det inte att finnas nĂ„gon kortsiktig lösning pĂ„ problemet. Eftersom tekniska företag fortsĂ€tter att samla in och kommentera anvĂ€ndardata för att utbilda sina AI-algoritmer, kommer de att möta en motreaktion frĂ„n sekretessföresprĂ„kare och eventuella rĂ€ttsliga Ă„tgĂ€rder frĂ„n dataskyddsmyndigheter. Detta har fĂ„tt dessa företag att tona ner och omstrukturera sina datainsamlings- och delningsprogram – men inte stoppa dem.

I slutet av augusti utfĂ€rdade Apple en osignerad ursĂ€kt pĂ„ sin webbplats för att dela Siri röstkommandon med entreprenörer. Företaget lovade att endast anvĂ€nda folks inspelningar för utbildningsĂ€ndamĂ„l nĂ€r de vĂ€ljer att delta i utvĂ€rderingsprogrammet. Google har pausat sitt utvĂ€rderingsprogram i Europa, dĂ€r reglerna för datasekretess Ă€r strĂ€ngare, men programmet fortsĂ€tter i andra omrĂ„den oavbrutet. Microsoft har uppdaterat sin integritetspolicy för att göra det klart att mĂ€nskliga entreprenörer eventuellt kommer att lyssna pĂ„ din röst. Amazon har Ă€ndrat sitt program för att ge anvĂ€ndarna möjlighet att vĂ€lja bort sitt utvĂ€rderingsprogram – vilket mĂ„nga anvĂ€ndare kommer att ignorera eller inte ens vara medvetna om.

PĂ„ lĂ„ng sikt tror Marcus att vi behöver nya perspektiv pĂ„ AI: “Vi behöver bĂ€ttre forskning om AI. Det innebĂ€r att en kultur som mest handlar om data och matematik flyttas till en kultur som ocksĂ„ innehĂ„ller andra idĂ©er frĂ„n andra omrĂ„den som psykologi , filosofi och lingvistik, som har tĂ€nkt ganska djupt över hur det mĂ€nskliga sinnet fungerar, och kan leda till en rikare uppsĂ€ttning tekniker för att bygga artificiell intelligens Ă€n vad vi verkligen ser just nu. “