Reklama

Teraz môžeme hovoriť s takmer všetkými našimi miniaplikáciami, ale ako presne to funguje? Keď sa spýtate „Čo je to za pieseň?“ alebo povedzte „Zavolajte mame“, deje sa zázrak moderných technológií. A hoci to vyzerá, že je na špičke, táto myšlienka hovoriť so zariadeniami siaha už desaťročia - takmer pokiaľ ide o jetpacky v sci-fi!

Dnes sa veľká pozornosť venovaná počítačom riadeným hlasom sústreďuje na smartfóny. Apple, Amazon, Microsoft a Google sú na vrchole reťazca, z ktorých každý ponúka svoj vlastný spôsob, ako hovoriť s elektronikou. Vedeli ste, kto to je: Siri, Alexa, Cortana a bezmenná bytosť „Ok, Google“. To vyvoláva veľkú otázku ...

Ako zariadenie prijíma hovorené slová a mení ich na príkazy, ktorým rozumie? V podstate ide o párovanie vzorov a vytváranie predpovedí na základe týchto vzorov. Presnejšie povedané, rozpoznávanie hlasu je zložitá úloha, ktorá pochádza Akustické modelovanie a Jazykové modelovanie.

Akustické modelovanie: Krivky a telefóny

vlnovú

Akustické modelovanie je proces snímania priebehu hovoru a jeho analýza pomocou štatistických modelov. Najbežnejšou metódou je

instagram viewer
Skryté Markovove modelovanie, ktorý sa používa v tzv modelovanie výslovnosti rozdeliť reč na súčasti nazývané telefóny (nezamieňať s aktuálnymi telefónnymi zariadeniami). Spoločnosť Microsoft je už mnoho rokov popredným výskumným pracovníkom v tejto oblasti.

Skryté Markovove modelovanie: pravdepodobnostné stavy

Skryté Markovove modelovanie je prediktívny matematický model, pri ktorom sa aktuálny stav určuje analýzou výstupu. Wikipedia má skvelý príklad pomocou dvoch priateľov.

Predstavte si dvoch priateľov - miestneho priateľa a vzdialeného priateľa - ktorí žijú v rôznych mestách. Miestny priateľ chce prísť na to, aké je počasie, kde býva Remote Friend, ale Remote Friend chce len hovoriť o tom, čo v ten deň urobil: chodiť, nakupovať alebo čistiť. Pravdepodobnosť každej činnosti v závislosti od denného počasia.

Skryté Markovove modelovanie

Predstierajte, že toto sú jediné dostupné informácie. Vďaka nemu môže miestna priateľka nájsť trendy v tom, ako sa počasie mení zo dňa na deň, a pomocou týchto trendov ona môže začať robiť vzdelané odhady o tom, aké dnešné počasie bude založené na aktivite jej priateľky včera. (Schému systému môžete vidieť vyššie.)

Ak chcete zložitejší príklad, pozrite sa tento príklad na Matlabe. Pri rozpoznávaní hlasu tento model v podstate porovnáva každú časť krivky s tým, čo príde skôr a čo po nej, a so slovníkom kriviek, aby zistil, čo sa hovorí.

V podstate, ak vydáte zvuk „th“, skontroluje ho proti najpravdepodobnejším zvukom, ktoré zvyčajne prichádzajú pred a po ňom. Možno to znamená skontrolovať zvuk „e“, zvuk „at“ atď. Ak sa vzor zhoduje správne, má celé vaše slovo. Toto je prehnané zjednodušenie, ale vidíte Celé vysvetlenie spoločnosti Microsoft tu.

Jazykové modelovanie: Viac ako zvuk

Akustické modelovanie vám pomôže počítaču pochopiť, ale čo homonymá a regionálne variácie výslovnosti? Tu prichádza do hry jazykové modelovanie. Spoločnosť Google viedla v tejto oblasti veľa výskumov, najmä prostredníctvom využívania internetu N-gramové modelovanie.

Keď sa spoločnosť Google snaží porozumieť vašej reči, robí tak na základe modelov odvodených od svojej rozsiahlej banky hlasového vyhľadávania a prepisov YouTube. Všetky tieto veselo zlé titulky videa skutočne pomohli spoločnosti Google pri vývoji ich slovníkov. Tiež použili opustených GOOG-411 zhromažďovať informácie o tom, ako ľudia hovoria.

shutterstock_70757203

Celá táto zbierka jazykov vytvorila veľké množstvo výslovností a dialektov, ktoré vytvorili pevný slovník slov a ako znejú. To umožňuje zhody, ktoré majú výrazne zníženú chybovosť ako porovnávanie hrubých síl na základe nespracovaných pravdepodobností. Môžete si prečítať krátky dokument tu opisujú svoje metódy.

Aj keď je spoločnosť Google lídrom v tejto oblasti, vyvíjajú sa aj ďalšie matematické modely vrátane súvislého priestoru modely a pozičné jazykové modely, ktoré sú pokročilejšími technikami, ktoré sa rodia z výskumu v oblasti umelej inteligencie. Tieto metódy sú založené na replikácii druhu úvah, ktoré ľudia robia pri vzájomnom počúvaní. Sú oveľa pokročilejšie, pokiaľ ide o techniku, ktorá je za nimi, ale aj matematiku a programovanie potrebné na zmapovanie týchto modelov.

N-Gram Modeling: Pravdepodobnosť vyhovuje pamäti

N-gramové modelovanie funguje na základe pravdepodobností, ale používa existujúci slovník slov na vytvorenie vetviaceho stromu možností, ktorý sa potom kvôli efektívnosti vyhladí. Znamená to, že N-gramové modelovanie odstraňuje veľa neistoty vo vyššie uvedenom skrytom Markovovom modelovaní.

Ako je uvedené vyššie, sila tejto metódy spočíva v tom, že máme veľký slovník slová a používanie, nielen primitívne zvuky. To dáva programu schopnosť rozoznať rozdiel medzi homofónmi, napríklad „beat“ a „repa“. Je to kontextové, čo znamená, že keď hovoríte o skóre za minulú noc, program netiahne slová o borščovi.

Tieto modely však v skutočnosti nie sú pre jazyk najlepšie, hlavne kvôli problémom s pravdepodobnosťou slov v dlhších frázach. Keď do vety pridáte ďalšie slová, tento model sa trochu oslabí, pretože vaše počiatočné slová pravdepodobne nenahradia všetko potrebné na dokonalé premýšľanie.

Implementácia je však jednoduchá a ľahká, čo z nej robí skvelý zápas pre spoločnosť, ako je Google, ktorá sa teší hádzaním serverov z výpočtových problémov. Ďalšie čítanie si môžete prečítať na stránke N-gram Modelieng na stránke University of Washington, alebo môžete sledovať a prednáška na Coursera.

Kričanie v oblakoch: aplikácie a zariadenia

Každý, kto použil Siri, pozná frustráciu pomalého sieťového pripojenia. Je to preto, že vaše príkazy pre Siri sa odosielajú po sieti, aby ich Apple dekódoval. Cortana pre Windows phone tiež vyžaduje správne fungovanie sieťového pripojenia. Naproti tomu je Amazon Echo iba reproduktorom Bluetooth bez internetu.

Prečo je rozdiel? Pretože Siri a Cortana potrebujú na dekódovanie vašej reči ťažké servery. Dalo by sa to urobiť na telefóne alebo tablete? Iste, ale tým by ste zabili svoj výkon a výdrž batérie. Len má zmysel presunúť spracovanie do vyhradených strojov.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Pomysli na to takto: tvoj príkaz je auto uviaznuté v blate. Pravdepodobne by ste to mohli vytlačiť sami s dostatočným časom a úsilím, ale bude to trvať hodiny a nechať sa vyčerpaný. Namiesto toho zavolajte cestnú asistenciu a vyťahujú vaše auto za pár minút. Nevýhodou je, že musíte zavolať a čakať na ne, ale stále je to rýchlejšie a menej zdaniteľné.

Modely stolových počítačov, ako je Nuance, majú tendenciu využívať miestne zdroje kvôli výkonnejšiemu hardvéru. Koniec koncov, podľa slov Steve Jobsa, váš desktop je kamión. (Čo robí to trochu hlúpe, že OS X používa servery pre jeho spracovanie.) Takže, keď potrebujete spracovať jazyk a hlas, je už dostatočne dobre vybavené na to, aby ho zvládlo samo.

Na druhej strane, Android umožňuje vývojárom zahrnúť do svojich aplikácií rozpoznávanie reči v režime offline. Spoločnosť Google sa ráda presúva s technológiou a môžete sa staviť, že ďalšie platformy získajú túto schopnosť, pretože ich hardvér sa stáva silnejším. Nikomu sa to nepáči, keď slabé pokrytie alebo zlý príjem lobotomizuje zariadenie.

Začnite používať hlasové príkazy

Keď už viete základné pojmy, mali by ste sa pohrávať so svojimi rôznymi zariadeniami. Vyskúšajte nové hlasové písanie v Dokumentoch Google Ako je hlasové písanie nová najlepšia funkcia Dokumentov GoogleRozpoznávanie hlasu sa v posledných rokoch zlepšilo míľovými krokmi. Začiatkom tohto týždňa spoločnosť Google konečne zaviedla hlasové písanie do služby Dokumenty Google. Ale je to dobré? Poďme zistiť! Čítaj viac . Ako keby sada webových kancelárií ešte nebola dostatočne výkonná, hlasové ovládanie vám umožňuje úplne diktovať a formátovať dokumenty. Tým sa rozširuje výkonná technológia, ktorú už navrhli pre prehliadače Chrome a Android.

Medzi ďalšie nápady patrí nastavenie Mac používa hlasové povely Ako používať príkazy reči na počítači Mac Čítaj viac a nastavenie vášho Amazon Echo s automatickou platbou Ako môže Amazon Echo z vášho domova urobiť inteligentný domovInteligentné domáce technológie sú stále vo svojich začiatkoch, ale nový produkt z Amazonu s názvom „Echo“ môže pomôcť priviesť ho do hlavného prúdu. Čítaj viac . Žite v budúcnosti a prijmite rozhovor so svojimi miniaplikáciami - aj keď si len objednáte viac papierových utierok. Ak ste závislí na smartfónoch, máme pre vás aj návody Siri 8 vecí, ktoré ste si pravdepodobne neuvedomiliSiri sa stal jednou z definujúcich funkcií telefónu iPhone, ale pre mnohých ľudí nie je vždy užitočný. Aj keď je to čiastočne kvôli obmedzeniam rozpoznávania hlasu, zvláštnosťou použitia ... Čítaj viac , Cortana 6 najúžasnejších vecí, ktoré môžete ovládať pomocou aplikácie Cortana vo Windows 10Cortana vám v systéme Windows 10 môže pomôcť s voľnými rukami. Môžete jej nechať vyhľadávať vo vašich súboroch a na webe, robiť výpočty alebo zvyšovať predpoveď počasia. Tu sa venujeme niektorým z jej chladnejších schopností. Čítaj viac a Android OK, Google: 20 užitočných vecí, ktoré môžete povedať na svojom telefóne s AndroidomAsistent Google vám môže pomôcť urobiť veľa na telefóne. Tu je veľa základných, ale užitočných príkazov spoločnosti Google, ktoré môžete vyskúšať. Čítaj viac .

Aký je váš obľúbený spôsob ovládania hlasom? Dajte nám vedieť v komentároch.

Kredity obrázkov: T-flex cez Shutterstock, Terencehonles prostredníctvom nadácie Wikimedia Foundation, Arizonský štát, Cienpies Design prostredníctvom Shutterstock

Michael nepoužíval Mac, keď boli odsúdení na zánik, ale môže kódovať v Applescript. Vyštudoval informatiku a angličtinu; už chvíľu píše o Mac, iOS a videohrách; a bol dennou IT opičkou už viac ako desať rokov a špecializoval sa na skriptovanie a virtualizáciu.