Technológia rozpoznávania hlasu má bohatú históriu vývoja, vďaka ktorému sa dostala do dnešnej podoby. Je v jadre moderného života a dáva nám schopnosť vykonávať úlohy iba rozhovorom so zariadením. Ako sa teda táto úžasná technológia za tie roky vyvinula? Pozrime sa.
1952: Systém Audrey
Prvý krok v rozpoznávaní hlasu nastal na začiatku päťdesiatych rokov minulého storočia. Spoločnosť Bell Laboratories vyvinula prvý stroj, ktorý dokázal porozumieť ľudskému hlasu, v roku 1952 a dostal názov Audrey System. Meno Audrey bolo akýmsi skrátením frázy Automatické rozpoznávanie číslic. Aj keď to bola zásadná inovácia, mala niekoľko zásadných obmedzení.
Čo je najvýraznejšie, Audrey rozoznávala iba číslice 0-9, žiadne slová. Audrey by poskytla spätnú väzbu, keď rečník povedal číslo, rozsvietením 1 z 10 žiaroviek, z ktorých každá zodpovedá číslici.
Aj keď dokázal porozumieť číslam s 90% presnosťou, Audrey bola obmedzená na konkrétny typ hlasu. To je dôvod, prečo jedinou osobou, ktorá by to skutočne použila, bol HK Davis, jeden z vývojárov. Keď bolo vyslovené číslo, reproduktor musel počkať najmenej 300 milisekúnd, kým povedal ďalšie.
Bola obmedzená nielen na funkčnosť, ale bola obmedzená aj na užitočnosť. Stroj, ktorý rozumel iba číslam, nemal veľké využitie. Jednou z možností použitia bolo vytáčanie telefónnych čísel, ale bolo oveľa rýchlejšie a jednoduchšie vytočiť čísla ručne. Aj keď Audrey nemala pôvabnú existenciu, stále predstavuje veľký míľnik v ľudských úspechoch.
Súvisiace: Ako používať hlasové zadávanie v programe Microsoft Word
1962: Shoebox spoločnosti IBM
Desať rokov po Audrey si IBM vyskúšala vývoj systému rozpoznávania hlasu. Na svetovej výstave v roku 1962 spoločnosť IBM predviedla systém rozpoznávania hlasu s názvom Showbox. Rovnako ako Audrey, jeho hlavnou úlohou bolo porozumieť číslam 0-9, ale dokázalo porozumieť aj šiestim slovám: plus, mínus, nepravda, súčet, medzisúčet a vypnuté.
Shoebox bol matematický stroj, ktorý dokázal vykonávať jednoduché aritmetické úlohy. Čo sa týka spätnej väzby, namiesto svetiel dokázal Shoebox vytlačiť výsledky na papier. Vďaka tomu bol užitočný ako kalkulačka, aj keď by rečník stále musel medzi každým číslom/slovom prestať.
1971: Automatická identifikácia hovoru od IBM
Po Audrey a Shoebox vyvinuli technológiu rozpoznávania hlasu ďalšie laboratóriá na celom svete. Rozbehlo sa to až v 70. rokoch minulého storočia, keď v roku 1971 spoločnosť IBM priniesla na trh prvý vynález svojho druhu. Hovorilo sa mu systém automatickej identifikácie hovorov. Bol to prvý systém rozpoznávania hlasu, ktorý bol použitý v telefónnom systéme.
Inžinieri zavolali a boli by pripojení k počítaču v Raleigh v Severnej Karolíne. Volajúci by potom vyslovil jedno z 5 000 slov v jeho slovníku a dostal by ako odpoveď „hovorenú“ odpoveď.
Súvisiace: Ako používať hlasové diktovanie na počítačoch Mac
1976: Harpyja
Začiatkom 70. rokov sa americké ministerstvo obrany zaujímalo o rozpoznávanie hlasu. DARPA (Defense Advanced Research Projects Agency) vyvinula program Speech Understanding Research (SUR) v roku 1971. Tento program poskytol finančné prostriedky niekoľkým spoločnostiam a univerzitám na pomoc výskumu a vývoja v oblasti rozpoznávania hlasu.
V roku 1976 kvôli SUR vyvinula Univerzita Carnegie Mellon Harpy System. Toto bol veľký skok v technológii rozpoznávania hlasu. Systémy do tej doby boli schopné porozumieť slovám a číslam, ale Harpyová bola jedinečná v tom, že rozumela celým vetám.
Mal slovnú zásobu asi 1 011 slov, čo podľa publikácie B. Lowerre a R. Reddy, sa rovná viac ako biliónu rôznych možných viet. Publikácia potom uvádza, že Harpyová dokázala porozumieť slovám s presnosťou 93,77%.
Osemdesiate roky boli rozhodujúcim obdobím pre technológiu rozpoznávania hlasu, pretože toto je desaťročie, v ktorom hlas rozpoznávacia technológia, pretože to bolo desaťročie, počas ktorého sme boli oboznámení s metódou skrytých Markovovcov (HMM). Hlavnou hybnou silou HMM je pravdepodobnosť.
Kedykoľvek systém zaregistruje fonému (najmenší prvok reči), existuje určitá pravdepodobnosť, aká bude nasledujúca. HMM používa tieto pravdepodobnosti na určenie, ktorá fonéma bude s najväčšou pravdepodobnosťou nasledovať, a bude vytvárať najpravdepodobnejšie slová. Väčšina systémov na rozpoznávanie hlasu dnes stále používa HMM na porozumenie reči.
90. roky: Rozpoznávanie hlasu sa dostáva na spotrebiteľský trh
Od koncepcie technológie rozpoznávania hlasu je na ceste nájsť priestor na spotrebiteľskom trhu. V osemdesiatych rokoch minulého storočia predstavila spoločnosť IBM prototyp počítača, ktorý dokázal diktovať reč na text. Avšak až na začiatku deväťdesiatych rokov minulého storočia ľudia začali vidieť takéto aplikácie vo svojich domovoch.
V roku 1990 spoločnosť Dragon Systems predstavila prvý softvér na diktovanie reči na text. Hovorilo sa mu Dragon Dictate a pôvodne bol vydaný pre Windows. Tento program za 9 000 dolárov bol revolučný v tom, že priniesol technológiu rozpoznávania hlasu masám, ale mala jednu chybu. Použitý softvér diskrétny diktát, čo znamená, že používateľ musí medzi jednotlivými slovami pozastaviť, aby ich program vyzdvihol.
V roku 1996 spoločnosť IBM opäť prispela do priemyslu spoločnosťou Medspeak. Bol to tiež program na diktovanie reči na text, ale netrpel diskrétnym určovaním, ako to robil Dragon Dictate. Namiesto toho tento program mohol diktovať nepretržitú reč, čo z neho robilo pútavejší produkt.
Súvisiace: Ako používať Asistenta Google so slúchadlami
2010: Dievča menom Siri
V priebehu 2000 -tych rokov bola technológia rozpoznávania hlasu veľmi populárna. Bol implementovaný do väčšieho množstva softvéru a hardvéru ako kedykoľvek predtým a jedným z najdôležitejších krokov vo vývoji rozpoznávania hlasu bol digitálny asistent Siri. V roku 2010 spoločnosť s názvom Siri predstavila virtuálneho asistenta ako aplikáciu pre iOS.
V tej dobe bol Siri pôsobivým softvérovým softvérom, ktorý dokázal diktovať, čo rečník hovorí, a poskytnúť vzdelanú a vtipnú odpoveď. Tento program bol taký pôsobivý, že spoločnosť Apple v tom istom roku získala spoločnosť a Siriho trochu prepracovala a posunula smerom k digitálnemu asistentovi, ktorého dnes poznáme.
Práve prostredníctvom Apple získal Siri svoj ikonický hlas (hlas od Susan Benettovej) a množstvo nových funkcií. Používa spracovanie prirodzeného jazyka ovládať väčšinu funkcií systému.
2010s: The Big 4 Digital Assistants
V súčasnom stave dominujú štyrom veľkým digitálnym asistentom rozpoznávanie hlasu a ďalší softvér.
- Siri je prítomný takmer vo všetkých produktoch spoločnosti Apple: iPhony, iPody, iPady a počítače Mac.
- Asistent Google je prítomný vo väčšine z 3 miliárd+ zariadení Android na trhu. Používatelia môžu navyše používať príkazy v mnohých službách Google, napríklad Google Home.
- Amazon Alexa nemá veľa vyhradenej platformy, kde žije, ale stále je to prominentný asistent. Je k dispozícii na stiahnutie a použitie na zariadeniach Android a zariadeniach Apple. a dokonca aj vybrané notebooky Lenovo
- Bixby je najnovším záznamom v zozname digitálnych asistentov. Je to domáci digitálny asistent spoločnosti Samsung a je prítomný medzi telefónmi a tabletmi spoločnosti.
Hovorená história
Rozpoznávanie hlasu prešlo od čias Audreyho dlhú cestu. Robí veľké zisky vo viacerých oblastiach; napríklad podľa Clear Bridge Mobile„Lekárska oblasť počas pandémie v roku 2020 ťažila z hlasovo ovládaných chatbotov. Rozpoznávanie hlasu, od schopnosti porozumieť číslam až po pochopenie rôznych variácií celých viet, sa ukazuje ako jedna z najužitočnejších technológií našej modernej doby.
Rozpoznávanie hlasu používame neustále, ale ako to funguje?
Čítajte ďalej
- Technológia vysvetlená
- Siri
- Asistent Google
- Alexa
- Bixby
- Hlasové príkazy
Arthur je technologický novinár a hudobník žijúci v Amerike. V odbore sa pohybuje už takmer desať rokov a píše pre online publikácie, ako napríklad Android Headlines. Má hlboké znalosti systému Android a ChromeOS. Okrem písania informačných článkov sa špecializuje aj na hlásenie technologických noviniek.
prihlásiť sa ku odberu noviniek
Pripojte sa k nášmu bulletinu a získajte technické tipy, recenzie, bezplatné elektronické knihy a exkluzívne ponuky!
Kliknutím sem sa prihlásite na odber