Maskine sprog: hvordan Siri opfanger din stemme?

Makradar Af Teknologi / by admin / December 19, 2019

click fraud protection

Google, Apple, Microsoft, og selv Amazon er aktivt at udvikle deres taletjenester. Friskbagt på iOS 7 er den samme Siri, kun nye funktioner og... stemme. Har du spekulerer på, hvordan er denne proces? Som computere bliver undervist tale? dette rigtig kunst.

For hver af de stemmer Siri - din skuespiller. Når den har afsluttet sin rolle i artikulation, har arbejdet kun lige begyndt... Den mandsstemme fortsætter sin rejse. Historien om denne rejse, både af Mennesker og robot - en af de mest komplekse teknologiske processer, som ikke kunne udføres for ti år siden.

Lad os komme i nærkontakt med direktøren for design og udvikling af stemmen Nuance, det er en af de største uafhængige virksomheder i verden, der beskæftiger sig med talegenkendelse og tekst til tale. Brant Ward (J. Brant Ward), der anvendes til at være en komponist, komponere fest for strygekvartetter til synthesizere, og nu er han komponerer det ved hjælp af syntetiske stemmer. Han arbejder i talesyntese industrien i Silicon Valley i over et årti.

instagram viewer

Tekst til tale - en meget konkurrencedygtig industri, og medarbejderne er meget hemmelighedsfuld. Selvom verden og mener, at Nuance skaber stemme Siri til, Ward og hans kollega David Vasquez (David Vazquez) undgå et direkte svar. Ikke desto mindre er de enige om at forklare, i det mindste i generelle vendinger, hvordan processen med at skabe en fantastisk maskine stemmer.

Det er overflødigt at sige, ingen grund til at artikulere og skrive hvert ord fra ordbogen. Men når det kommer til den ansøgning, som bør læses nogen nyheder i dit nyhedsbrev, eller finde noget for dig på internettet, er det simpelthen forpligtet til at tale hvert ord i ordbogen.

De fleste af forslagene udvælges på en "rigdom fonetik" - det vil sige, de indeholder mange forskellige kombinationer af fonemer. "Faktum er, jo flere data, vi har, jo mere realistisk resultatet blive," - siger Ward.

Når teksten er optaget live stemme skuespiller (en kedelig proces, der kan tage flere måneder), meget hårdt arbejde begynder. Ord og sætninger analyseres, divideret med kategorier og registreres i en stor database. I denne komplekse arbejde involveret et team af engagerede sprogfolk, samt bruge deres egen sproglige software.

Når alt dette er gjort, at enheden for Nuance oversætte tekst til tale skaber bit ord og sætninger, skuespilleren kan Jeg har faktisk aldrig udtalt, men det lyder meget lig talen af skuespilleren, fordi det teknisk er talerør skuespiller.

Proces taler er bevidstløs. Vi gør det uden at tænke over, hvordan denne proces sker: den situation, hvor er vores sprog, som relationer er bygget mellem fonemer, og så videre - til nemt og effektivt at udtrykke komplekse ideer og følelser. Men for at computeren afhentet lyden af menneskestemmer, skal der tages hensyn til alle disse faktorer. Som en professor i lingvistik, er opgaven med "Titanic".

Du bør ikke tænke: "Jeg taler til en computer." Du generelt ikke behøver at tænke over det.

"Mine børn interagere med af Siri, som om det var et levende væsen... De har ikke mærke forskellen," - siger Ward.

Hidtil samt venskabet mellem mennesker og robotter - såsom mennesker. Mange mennesker vil gerne det, hvis Siri kan genkende den følelsesmæssige tilstand af højttaleren, og på en måde reagere på det (for eksempel omfatte en beroligende stemme tilstand). Forestil - at tale med robotten, som er moralsk klappe dig på hovedet. Måske er Nuance allerede tænker over det ...

Tags sky

bedømmelse

visninger

Kommentarer