Detekcia fráz je len súčasťou procesu.

Kričanie „Ok Google“ z druhej strany miestnosti, aby ste zmenili hudbu alebo zhasli svetlá v miestnosti, je určite cítiť neuveriteľné, ale tento zdanlivo jednoduchý proces je poháňaný komplikovanou sieťou technológií, ktoré za tým stoja scény.

Takmer každý veľký virtuálny asistent na trhu má volaciu frázu, ktorú používate na zobudenie asistenta a konverzáciu. Ako však hlasoví asistenti vedia, že s nimi hovoríte?

Ako funguje detekcia fráz?

Ako už bolo spomenuté vyššie, každý hlasový asistent má „spúšťaciu frázu“ alebo budiace slovo, ktoré používate na zobudenie asistenta a zadanie ďalších príkazov. Proces odhaľovania tejto frázy je až na drobné nuansy viac-menej rovnaký u každého asistenta. To znamená, že tieto nuansy môžu znamenať rozdiel medzi náhodným vyslovením príkazu na zobudenie a jeho opakovaným zakričaním len pre asistenta, aby spal, čo môže byť niekedy naozaj nepríjemné, najmä ak ste pomocou hlasového asistenta, ktorý vám pomôže upokojiť sa.

instagram viewer
Image Credit: graphicsstudio/Vecteezy

Vo všeobecnosti má väčšina „inteligentných“ reproduktorov malý obvod, ktorého jedinou úlohou je rozpoznať príkaz prebudenia a následne uviesť do činnosti zvyšok hardvéru. Väčšina spracovania sa vykonáva v cloude, ale zisťovanie frázy je zo zjavných dôvodov ochrany osobných údajov na zariadení. Detekcia fráz na telefónoch funguje viac-menej rovnako.

Špecifiká sú väčšinou pod pokrievkou, ale tieto detekčné systémy využívajú strojové učenie a hlboké neurónové siete (DNN) na trénovanie modelov AI na detekciu vášho hlasu a vytvorenie kľúča. Tento kľúč sa potom použije na overenie vyslovenia konkrétnej frázy a všetko ostatné sa odošle do cloudu na ďalšie spracovanie.

Google Assistant

Telefóny, ktoré podporujú detekciu „OK Google“, sa zvyčajne dodávajú so systémom rozpoznávania kľúčových slov (KWS), ktorý rozpozná frázu a zvyšok vášho dopytu potom opraví do cloudu. Keďže mobilné zariadenia majú obmedzený výpočtový výkon a tiež obmedzenú výdrž batérie, tieto systémy zvyčajne nie sú také dobré ako tie, ktoré nájdete na reproduktoroch Google Nest.

Tento systém KWS na zariadení nepretržite zachytáva zvuk z mikrofónov zariadenia a inicializuje pripojenie k serveru, keď zistí spúšťaciu frázu. Google tiež používa kontextové automatické rozpoznávanie reči (ASR) na strane servera na zlepšenie celkovej presnosti svojho systému KWS. Viac si o tom môžete prečítať v Výskumný dokument Google [PDF].

Siri

Siri funguje rovnako ako Google Assistant, pokiaľ ide o detekciu „Hey Siri“. Apple bol prekvapivo otvorený o tom, ako systém funguje, čo zahŕňa „veľmi malý“ rozpoznávač reči, ktorý beží na pozadí a počúva iba tieto dve slová. Tento detektor používa DNN na konverziu akustického vzoru vášho hlasu zaznamenaného v každej inštancii na rozdelenie pravdepodobnosti medzi zvukmi reči, čím sa v podstate generuje skóre spoľahlivosti.

Váš iPhone alebo Apple Watch to robí tak, že mení váš hlas na prúd vzoriek kriviek rýchlosťou 16 000 za sekundu. Toto sa potom zredukuje na sekvenciu snímok pokrývajúcich zvukové spektrum približne 0,01 sekundy. Potom sa celkom 20 týchto snímok privedie do detekčného modelu, ktorý tieto vzory prevedie na pravdepodobnosť.

Kredit za obrázok: Apple

Ak systém s dostatočnou istotou určí, že ste povedali „Ahoj Siri“, Siri sa prebudí a pošle zvyšok dotazu do cloudu, kde sa uskutoční ďalšia analýza a vykoná sa akákoľvek požadovaná akcia vykonané.

Na zabezpečenie účinnosti pamäte a batérie sú samozrejme pridané ďalšie opatrenia. Always On Processor (AOP) vášho iPhone má prístup k mikrofónom zariadenia (na iPhone 6S a novšom) práve z tohto dôvodu a malá časť jeho výpočtového výkonu je vyhradená na spustenie DNN. Apple sa na svojej webovej stránke strojového učenia podrobne ponára do celého systému, strojové učenie.jablko.

Alexa

Rovnako ako Google Assistant a Siri, Alexa tiež neuchováva väčšinu svojho výpočtového výkonu na žiadnom z reproduktorov Echo, ktoré si môžete kúpiť. Namiesto toho reproduktory používajú to, čo Amazon nazýva automatické rozpoznávanie reči (ASR), ktoré v podstate prevádza hovorené slová na text, čo umožňuje základnému systému ich interpretovať a podľa toho konať.

ASR tvorí základný základ toho, ako Alexa funguje. Opäť je tu palubný systém, ktorý počúva slová prebudenia, v tomto prípade „Alexa“, „Amazon“, „Echo“ alebo „Computer“ a spustí zvyšok systému, keď je prebudené slovo vopred určené používateľom zistené. Môžete dokonca zobuďte svoje zariadenie Alexa pomocou „Hey Disney“ Ak chceš.

Rovnako ako Asistent Google môžete trénovať základný model AI Alexa, aby lepšie rozpoznal váš hlas. Tento proces zahŕňa vytvorenie základného „kľúča“, s ktorým sa porovná hovorené budiace slovo, a keď sa nájde zhoda, zariadenie podľa toho zareaguje.

Počúvajú hlasoví asistenti vždy?

Ako už asi tušíte, áno, sú. Neexistuje spôsob, ako by inak dokázali rozpoznať prebudené slová. Zatiaľ však nemusíte vyhadzovať všetky inteligentné reproduktory z dôvodu ochrany osobných údajov.

Počúvať všetko, čo používatelia hovoria, posielať to späť na vzdialený server a analyzovať (alebo ukladať). vyžaduje enormný hardvér a finančné zdroje do tej miery, že to z praktického hľadiska nedáva zmysel perspektíva. Keď sa k tomu pridajú obrovské obavy o súkromie, ktoré už riešia spoločnosti ako Google, Apple a Amazon, táto myšlienka nedáva zmysel.

To tiež výrazne ovplyvňuje výkon telefónov a výdrž batérie vďaka funkciám detekcie slov v prebudení, najmä telefónov Google Pixel a iPhone. Ak váš telefón nepretržite počúva, čo hovoríte, a odosiela zvuk späť na vzdialený server, vybije vám batériu a zníži výkon zariadenia.

Kto má najefektívnejšiu detekciu fráz a prečo?

Nie je ľahké objektívne porovnať, ktorý virtuálny asistent má objektívne najlepšiu detekciu fráz, pretože všetci používajú mierne odlišné implementácie rovnakého celkového konceptu. Zdá sa však, že Google má v porovnaní so Siri a Alexou dôslednejšiu detekciu fráz z dôvodu náskoku Google Assistant.

Napriek tomu, že aplikácie využívajúce veľké jazykové modely (LLM), ako sú ChatGPT a Bing Chat, sa stávajú mainstreamovými, Asistent Google si udržiava pozíciu jedného z najlepších obľúbení virtuálni asistenti jednoducho preto, že sú dostupné jediným klepnutím na každom zariadení so systémom Android, od inteligentných televízorov až po autorádio a samozrejme smartfóny.

Siri a Alexa majú v tomto oddelení čo doháňať, ale pokiaľ ide o detekciu fráz, nie sú tak ďaleko. Napriek tomu budete mať väčšiu šancu prebudiť Asistenta Google na svojom Pixeli z druhej strany miestnosti, ako by ste mali so Siri na vašom iPhone, hoci môžete rozšírte možnosti Siri pomocou režimu Super Siri. Keďže Alexa sa väčšinou používa na reproduktoroch radu Amazon Echo, má tu miernu výhodu, keďže tieto reproduktory sú navrhnuté tak, aby dokázali zachytiť hlas používateľa.

AI je rovnako strašidelná ako pohodlná

Privolať si asistenta AI len pomocou hlasu môže prísť celkom vhod. Pre funkciu, ktorá sa bez problémov integruje do našich životov, sa v zákulisí deje veľa, o čom väčšina z nás často nepremýšľa.

To znamená, že toto pohodlie so sebou prináša aj nepokoj, keď vaše zariadenie vždy počúva, čo hovoríte. Zatiaľ sú rozpoznávače reči na zariadení a budiace slová medzi tým, čo počuje váš virtuálny asistent, a tým, čo hovoríte.