Det är därför AI-företag måste lyssna på dina röstinspelningar

I slutet av augusti släppte moderkortet nyheterna om att Microsoft hade delat röstinspelningar av Xbox-användare med entreprenörer för att förbättra funktionaliteten hos sin AI-drivna röstassistent. Tidigare samma månad avslöjade en annan rapport att Microsoft delade Skype-inspelningar och Cortana röstkommandon med entreprenörer för att förbättra chattplattformens tjänster. Några av inspelningarna innehöll intimt innehåll.

Microsoft är bara ett av flera företag som anställer mänskliga arbetare för att lyssna och kommentera användargenererad data. Under de senaste månaderna har liknande program på Google, Amazon, Facebook och Apple, som har etablerat sig som en förespråkare för användarnas integritet, avslöjats.

När röstaktiverade assistenter och chatbots blir alltmer populära, står teknikföretag inför en svår utmaning: Deras AI-algoritmer är inte gjorda för att hantera komplexiteten i mänskligt språk och de misslyckas ofta med att förstå innebörden av kommandon och meningar som deras användare säga.

För tillfället är den enda lösningen att anställa människor för att styra dessa AI-algoritmer i rätt riktning. Och det kräver ofta att dessa arbetare lyssnar på användarnas intima samtal för att transkribera och kommentera dem.

Utmaningen att förstå språk

Röstbaserade assistenter som Alexa, Siri och Cortana är skyldiga sina möjligheter till framsteg inom djupinlärning, en gren av artificiell intelligens som har blivit mycket populär de senaste åren. Deep-learning algoritmer är särskilt bra på att hitta mönster och klassificera information.

När du tillhandahåller en djupinlärningsalgoritm med miljontals röstinspelningar och deras motsvarande texter kan den transkribera nya ljudutdrag med mycket hög noggrannhet. Djupinlärning är också bra för förutsägelse: När du tränar en AI-algoritm på en stor textkropp utvecklar den komplexa matematiska representationer av olika ordsekvenser och kan utföra uppgifter som att automatiskt fylla i meningar.

anslutna sociala medierTja, kanske inte. Men Facebook hoppas att AI kommer att frigöra ditt nyhetsflöde av nazister, bots och falska nyheter. Rätt

Men djupinlärning kämpar med att förstå betydelsen av ord och meningar, en uppgift som inte kan utföras med ren matematik och statistik.

“Taligenkänning och naturlig språkförståelse kan låta som liknande problem, men de är faktiskt helt olika”, säger Gary Marcus, kognitiv forskare och grundare och VD för Robust.AI. “I taligenkänning har du ett begränsat antal stavelser och fonem på ditt språk, och du försöker översätta en ljudström till något som tillhör en mycket liten uppsättning kategorier.”

Det engelska språket har tiotusentals vanligt förekommande ord, och i storåldersåldern kan du enkelt hitta miljoner exempel på var och en för att träna djupinlärningsmodeller. Men att analysera meningar och tolka deras betydelser är en helt annan ansträngning. Det finns otaliga möjliga meningar, alla med en unik betydelse. Och betydelsen av ord varierar beroende på var de är i en mening och vad som föregår eller följer dem.

“Förutom några små meningar är nästan alla meningar du hör originala. Du har inga data direkt om det. Och det betyder att du har ett problem som handlar om inferens och förståelse”, säger Marcus. “De tekniker som är bra för att kategorisera saker, lägga dem i soptunnor som du redan känner, är helt enkelt inte lämpliga för det. Att förstå språk handlar om att koppla det du redan vet om världen med vad andra människor försöker göra med orden de säger.”

I sin nya bok, Rebooting AI (coauthored with New York University professor Ernest Davis), förklarar Marcus några av de utmaningar som möter samtida AI när den dechiffrerar betydelsen av mänskligt språk. En av de saker som vi tar för givet är den allmänna kunskapen om världen som vi alla har och hur vi använder denna kunskap för att lösa upp tvetydigheterna i det talade och skriftliga språket.

Vardagliga samtal är fyllda med sådana tvetydigheter. Tänk till exempel på den här meningen, som Marcus och Davis undersöker i sin bok: “Elsie försökte nå sin moster i telefon, men hon svarade inte.” Detta är en enkel mening. Men den innehåller också flera tvetydigheter som du som människa lätt kan lösa. När du hör meningen måste du omedelbart veta att “nå” betyder “att kommunicera” och inte “fysiskt nå ut”, “på telefonen” betyder “genom att använda telefonen” och inte “fysiskt på telefonen” och “hon “är en hänvisning till Elsies moster och inte till Elsie själv. Det här är alla slutsatser du kan göra utan att tänka igen eftersom du vet vad en telefon är, vad den används till och hur processen att ringa ett samtal fungerar.

Den oändliga träningscykeln

Djupt lärandes brist på sunt förnuft och kunskap om världen gör att teknikföretag inte har något annat alternativ än att fortsätta träna sina AI-modeller med fler och fler exempel, i hopp om att de så småningom kommer att täcka alla möjliga sätt att säga de saker som deras AI-assistenter ska göra. Det är därför de behöver hjälp av mänskliga arbetare, vanligtvis avlägsna och underbetalda, som kan utvärdera prestanda för sina AI-algoritmer, eller transkribera och kommentera användarinspelningar som AI-algoritmer inte kan dechiffrera.

Men med tanke på de oändliga sätten på vilka människor kan uttrycka saker kommer mer träning att bli en band-Aid-lösning. Det kommer alltid att finnas avvikelser, scenarier som AI inte har utbildats för att hantera; och mänskligt språk är dynamiskt och ständigt under utveckling. Allt detta kräver mer utbildning, vilket innebär att du kommer att höra fler berättelser om fjärranställda som lyssnar på dina privata konversationer.

Vad är artificiell intelligens?

“Svagheten med den nuvarande teknologin är att den är otroligt datahungrig, särskilt i öppna problem som naturligt språkförståelse. Så företagen är desperata att försöka få den informationen”, säger Marcus. “Jag tror inte att det verkligen kommer att lösa deras problem ändå. Det kommer att hjälpa lite, men det kommer inte att lösa det.”

Utan ett sätt att bädda in sunt förnuft och grundläggande kunskap i djupinlärningsalgoritmer kommer det inte att finnas någon kortsiktig lösning på problemet. Eftersom tekniska företag fortsätter att samla in och kommentera användardata för att utbilda sina AI-algoritmer, kommer de att möta en motreaktion från sekretessförespråkare och eventuella rättsliga åtgärder från dataskyddsmyndigheter. Detta har fått dessa företag att tona ner och omstrukturera sina datainsamlings- och delningsprogram – men inte stoppa dem.

I slutet av augusti utfärdade Apple en osignerad ursäkt på sin webbplats för att dela Siri röstkommandon med entreprenörer. Företaget lovade att endast använda folks inspelningar för utbildningsändamål när de väljer att delta i utvärderingsprogrammet. Google har pausat sitt utvärderingsprogram i Europa, där reglerna för datasekretess är strängare, men programmet fortsätter i andra områden oavbrutet. Microsoft har uppdaterat sin integritetspolicy för att göra det klart att mänskliga entreprenörer eventuellt kommer att lyssna på din röst. Amazon har ändrat sitt program för att ge användarna möjlighet att välja bort sitt utvärderingsprogram – vilket många användare kommer att ignorera eller inte ens vara medvetna om.

På lång sikt tror Marcus att vi behöver nya perspektiv på AI: “Vi behöver bättre forskning om AI. Det innebär att en kultur som mest handlar om data och matematik flyttas till en kultur som också innehåller andra idéer från andra områden som psykologi , filosofi och lingvistik, som har tänkt ganska djupt över hur det mänskliga sinnet fungerar, och kan leda till en rikare uppsättning tekniker för att bygga artificiell intelligens än vad vi verkligen ser just nu. “

Relaterade Artiklar

Back to top button