OpenAI's Whisper je nové riešenie poháňané AI, ktoré dokáže zmeniť váš hlas na text. Najlepšie zo všetkého je, že má nulové náklady.
Má to však háčik: inštalácia a používanie je náročnejšie ako priemerná pomôcka systému Windows. Najmä ak chcete použiť Tensor Cores vášho GPU Nvidia, aby ste ho pekne podporili.
Netráp sa však. Preto sme tu! Čítajte ďalej a zistite, ako ho nainštalovať a používať, ale tiež, ak ho vlastníte, aby Whisper využil výhody vášho GPU Nvidia.
Čo je to Whisper OpenAI?
ChatGPT je dnes v móde a už sme to videli ako môžete používať ChatGPT od OpenAI. A predsa to nie je jediný zaujímavý projekt OpenAI.
Whisper, poháňaný hlbokým učením a neurónovými sieťami, je systém na spracovanie prirodzeného jazyka, ktorý dokáže „porozumieť“ reči a prepísať ju do textu. Ale je to tiež vlastné, sedí na mieste priamo medzi všetkými podobnými riešeniami:
- Whisper je riešenie AI „vycvičené“ na prirodzenom jazyku. Takže lepšie rozumie „normálnej“ ľudskej reči ako staršie riešenia.
- Whisper sa nedodáva s rozhraním, ani nemôže nahrávať zvuk. Môže prijať iba existujúce zvukové súbory a výstupné textové súbory.
- Keďže je dobrý v tom, „dávať zmysel jazyku“, má Whisper aj superschopnosť automatického prekladu v jedinom kroku.
- Whisper nie je online služba a môže fungovať úplne offline.
- Ak máte relatívne moderný GPU Nvidia (GTX970 alebo novší), Whisper môže bežať v „hardvérovom zrýchlenom režime“, aby zvýšil svoju rýchlosť.
- Neexistuje žiadna požiadavka na registráciu, zakúpenie licencie alebo zakúpenie predplatného.
Prečo nie sú podporované grafické procesory AMD?
Aby boli GPU užitočné nielen pre grafiku, museli by fungovať ako plne programovateľné procesory. Preto Nvidia vytvorila CUDA, oficiálne považovaná za „paralelnú výpočtovú platformu a programovací model“. Ak sa chcete dozvedieť viac o CUDA a súvisiacom hardvéri ("jadrá CUDA"), prečítajte si náš článok o čo sú jadrá CUDA a ako zlepšujú počítačové hry.
CUDA je patentovaná technológia Nvidia, kompatibilná iba s GPU Nvidia. Najbližšími alternatívami pre hardvér AMD sú OpenCL a Radeon Compute Platform. Ak sa chcete dozvedieť viac o porovnaní riešení jednotlivých spoločností, pozrite si náš článok o Výpočtové jednotky AMD vs. Jadrá CUDA od Nvidia.
V porovnaní s alternatívami sa CUDA považuje za zrelšie, výkonnejšie a jednoduchšie na použitie. Väčšina vývojárov sa teda zameriava iba na CUDA, čo zase znamená, že ich softvér využíva iba hardvérové funkcie na GPU Nvidia. A to zahŕňa aj Whisper.
Ako stiahnuť a nainštalovať Whisper
Bohužiaľ, Whisper nie je samostatná aplikácia, ktorú si môžete stiahnuť, nainštalovať a spustiť. Spolieha sa na ďalší softvér, ktorý musí byť tiež nainštalovaný.
Pre systém Windows, aby bola táto príručka jednoduchá, budeme vo veľkej miere používať Chocolatey na inštaláciu väčšiny potrebných softvérových častí. Pozrite si nášho sprievodcu najrýchlejší spôsob inštalácie softvéru Windows pre viac informácií o Chocolatey.
Pre Linux a Mac by mal byť proces inštalácie (okrem premennej cesty Windows a ľahko použiteľných dávkových súborov, ktoré vytvoríme) podobný.
- Ak chcete nainštalovať a používať Whisper, musíte mať Python a jeho PIP nástroj nainštalovaný a pridaný do premennej Windows "Path". Informácie o tom nájdete v našom článku ako nainštalovať Python PIP na Windows, Mac a Linux.
- Inštalácia FFMPEG cez Chocolatey s týmto príkazom:
Nainštalujte si aj jeho verziu Pythonu pomocou:čoko Inštalácia ffmpeg
pip3 Inštalácia python-ffmpeg
- Nakoniec nainštalujte Whisper z jeho stránky Github pomocou:
pip3 nainštalovať git+https://github.com/openai/whisper.git
Získanie verzie Whisper s podporou CUDA
Hoci Whisper nepoužíva GPU Nvidia, fakľa balík, na ktorý sa spolieha, ponúka verziu s akceleráciou CUDA. Použitie tejto namiesto „obyčajnej“ verzie môže Whisperovi pomôcť dokončiť prepisy oveľa rýchlejšie s pomocou vášho GPU Nvidia.
Ak chcete, aby Whisper používal jadrá CUDA vášho GPU Nvidia:
- Ak už máte nainštalovanú „vanilkovú“ verziu baterky, odinštalujte ju a vyčistite jej zvyšky pomocou:
Po dokončení postupujte takto:pip3 odinštalovať fakľa
pip cacheočistiť
- Nainštalujte verziu horáka s podporou CUDA pomocou:
pip3 Inštalácia baterka torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
- Ak chcete skontrolovať, či Whisper môže používať váš GPU Nvidia, použite:
Mali by ste vidieť (predvolené: cuda) namiesto (predvolené: cpu).šepkať --pomoc | findstr -i pytorch
Čo robiť, ak sa pochodeň nepodarí nainštalovať
Ak sa pri inštalácii baterky stretnete s chybou „nenájdená žiadna verzia“, možno budete musieť nainštalovať staršiu verziu Pythonu súbežne s vašou aktuálnou verziou.
Na to použite tento príkaz:
čoko Inštalácia pytón --version OLDER_VERSION --side-by-side
Nahraďte „OLDER_VERSION“ verziou, napríklad 3.10.
Potom použite cestu sekundárnej verzie pre všetky „všeobecné“ príkazy Whisper (napr. „c:\Python310\Scripts\pip.exe“ a nie iba „pip“).
Ako nahrať svoj hlas
Ak chcete zmeniť svoj hlas na súbor WAV alebo MP3, môžete použiť akúkoľvek aplikáciu na nahrávanie zvuku. Windows obsahuje takúto aplikáciu – ďalšie informácie o nej nájdete v časti ako používať aplikáciu Windows 10 Voice Recorder.
Ak chcete získať plnohodnotnejšiu možnosť, skúste Drzosť. Naučte sa, ako to urobiť s naším sprievodcom ako používať Audacity na nahrávanie zvuku na Windows a Mac.
Ako začať prepisovať šepotom
Hoci Whisper neprichádza s užívateľsky prívetivým GUI, jeho použitie je veľmi jednoduché.
Povedzme, že máme súbor Najnovšia poznámka.mp3 ktorý obsahuje reč v gréčtine, v priečinku c:\MyAudioFilesa chcete ho preložiť do angličtiny a prepísať do textového súboru.
- Začíname behom Príkazový riadok alebo PowerShell.
- Týmto príkazom „zmeníme adresár“, v ktorom je uložený zvukový súbor:
cd C:\MyAudioFiles
- Uvoľníme Whisper na súbore pomocou:
šepkať--Modelzákladňu--Jazykgr--úlohapreložiťNajnovšia poznámka.mp3
Po spracovaní sa textový súbor (s názvom „LatestNote.mp3.txt“) objaví v rovnakom priečinku. Otvorte ho v textovom editore, napr Poznámkový blok pre zobrazenie preloženého textu.
Použili sme príklad prekladu, pretože anglický prepis je ešte priamočiarejší: stačí „stratiť“ príznaky „--language“ a „-task“. Pre obyčajný prepis by teda vyššie uvedený príkaz bol:
šepkať--ModelzákladňuNajnovšia poznámka.mp3
Príznak „model“ je povinný, pretože Whisper používa jednu z rôznych možností. Poďme si ich rozšíriť, aby sme vám pomohli vybrať to najlepšie pre vaše potreby.
Ktorý model si vybrať?
Whisper ponúka rôzne jazykové modely. Čím väčší model, tým lepšia je jeho presnosť, ale aj vyššie hardvérové nároky. Oni sú:
- Maličký.
- Základňa.
- Malý.
- Stredná.
- Veľký.
Väčšina rodených anglicky hovoriacich by mala byť v pohode s malinký alebo základňu modelov. Používatelia, ktorí nie sú rodenými anglickými jazykmi, môžu dosiahnuť lepšie výsledky s väčšími modelmi, napr malý a stredná.
Upozorňujeme však, že stredné a veľké modely vyžadujú viac ako 8 GB pamäte VRAM (to znamená „pamäť vášho GPU“).
Ak chcete vybrať jeden z nich, zadajte model za prepínačom "--model" v príkaze:
šepkať --model malý/malý/stredný/veľký [súbor]
Napríklad:
šepkať--ModelmalýMy_Voice_Note.mp3
Ako zefektívniť prepis
Zadávanie celého príkazu Whisper zakaždým, keď chcete prepísať nejaký zvuk, môže byť rýchlo nudné. Vytvorme globálne dostupný dávkový súbor na zefektívnenie procesu.
- Bežať Prieskumník systému Windows a navštívte svoj disk C:.
- Vytvorte priečinok pre svoje skripty a skopírujte jeho cestu do schránky.
- V ponuke Štart systému Windows vyhľadajte „cesta“ a vyberte ju Upravte systémové premenné prostredia.
- Nájsť Cesta premenná pod Používateľské premenné pre YOUR_USERNAME. Ak ho chcete upraviť, dvakrát naň kliknite. Kliknite na Novýa prilepte cestu k priečinku skriptov. Kliknite na OK prijať zmeny.
- Vráťte sa do priečinka skriptov v programe Windows Prieskumník. Vytvorte tam nový dávkový súbor s názvom „wht.bat“. "Vnútri" umiestnite tento príkaz:
šepkať --model tiny --language sk %1
- Vytvorte ďalšie dva dávkové súbory, „whs“ a „whm“.
- Umiestnite to do prvého skriptu:
šepkať --model small --language sk %1
- Umiestnite to do druhého:
šepkať --model medium --language sk %1
Gratulujeme, teraz máte tri skripty na jednoduché používanie malých, malých a stredných modelov Whisper s vašimi zvukovými súbormi! Ak chcete prepísať akýkoľvek zvukový súbor na text:
- Nájdite súbor s Prieskumník súborov Windows.
- Kliknite pravým tlačidlom myši na prázdnom mieste a vyberte si Otvoriť v termináli.
- Zadajte tento príkaz a nahraďte „wht“ „whs“ alebo „whm“, aby ste použili modely malého alebo stredného jazyka:
whtYOUR_AUDIO_FILE.mp3
Písanie rýchlosťou zvuku a šepotom
Ani tí najrýchlejší dotykoví pisári sa nedokážu vyrovnať rýchlosti, akou hovoríme. Až donedávna však nebolo na vytváranie dokumentov optimálne hovoriť namiesto písania.
Väčšina riešení na prevod hlasu do textu priniesla priemerné výsledky. Mohli by ste nájsť niekoľko riešení, ktoré stoja za vyskúšanie, ale ich používanie bolo komplikované alebo drahé. Našťastie to všetko zmenil Whisper.
Po vyššie uvedených krokoch by ste mali byť pripravení prepísať alebo preložiť svoj hlas s vysokou presnosťou pomocou jediného príkazu.