Meta's Llama 2 môžete používať online, ale ak si ho nainštalujete na lokálny počítač, môžete si ho prispôsobiť a prispôsobiť.
Meta vydala Llama 2 v lete 2023. Nová verzia Llama je doladená o 40 % viac tokenov ako pôvodný model Llama, čím sa zdvojnásobila dĺžka kontextu a výrazne prekonala ostatné dostupné modely s otvoreným zdrojom. Najrýchlejší a najjednoduchší spôsob prístupu k Llama 2 je cez API cez online platformu. Ak však chcete ten najlepší zážitok, inštalácia a načítanie Llama 2 priamo na vašom počítači je najlepšia.
S ohľadom na to sme vytvorili podrobný návod, ako používať Text-Generation-WebUI na načítanie kvantovanej Llama 2 LLM lokálne do vášho počítača.
Prečo inštalovať Llama 2 lokálne
Existuje mnoho dôvodov, prečo sa ľudia rozhodnú spustiť Llamu 2 priamo. Niektorí to robia kvôli ochrane osobných údajov, niektorí kvôli prispôsobeniu a iní kvôli možnosti offline. Ak skúmate, dolaďujete alebo integrujete Llama 2 pre svoje projekty, potom prístup k Llama 2 cez API nemusí byť pre vás. Zmyslom spustenia LLM lokálne na vašom PC je znížiť spoliehanie sa na
nástroje AI tretích strán a používajte AI kedykoľvek a kdekoľvek bez obáv z úniku potenciálne citlivých údajov do spoločností a iných organizácií.S tým povedané, začnime s podrobným sprievodcom inštaláciou Llama 2 lokálne.
Aby sme veci zjednodušili, použijeme inštalačný program na jedno kliknutie pre Text-Generation-WebUI (program používaný na načítanie Llama 2 s GUI). Aby však tento inštalátor fungoval, musíte si stiahnuť nástroj Visual Studio 2019 Build Tool a nainštalovať potrebné prostriedky.
Stiahnuť ▼:Visual Studio 2019 (Zadarmo)
- Pokračujte a stiahnite si komunitnú edíciu softvéru.
- Teraz nainštalujte Visual Studio 2019 a potom otvorte softvér. Po otvorení začiarknite políčko Vývoj desktopu v C++ a stlačte inštalovať.
Teraz, keď máte nainštalovaný vývoj Desktop s C++, je čas stiahnuť si inštalátor Text-Generation-WebUI na jedno kliknutie.
Krok 2: Nainštalujte Text-Generation-WebUI
Inštalačný program Text-Generation-WebUI na jedno kliknutie je skript, ktorý automaticky vytvorí požadované priečinky a nastaví prostredie Conda a všetky potrebné požiadavky na spustenie modelu AI.
Ak chcete skript nainštalovať, stiahnite si inštalátor jedným kliknutím kliknutím na kód > Stiahnite si ZIP.
Stiahnuť ▼:Inštalátor generovania textu-WebUI (Zadarmo)
- Po stiahnutí rozbaľte súbor ZIP do preferovaného umiestnenia a potom otvorte extrahovaný priečinok.
- V priečinku prejdite nadol a vyhľadajte vhodný spúšťací program pre váš operačný systém. Spustite programy dvojitým kliknutím na príslušný skript.
- Ak používate systém Windows, vyberte štart_windows dávkový súbor
- pre MacOS vyberte start_macos škrupina
- pre Linux, štart_linux shell skript.
- Váš antivírus môže vytvoriť výstrahu; toto je fajn. Výzva je len falošne pozitívny antivírus na spustenie dávkového súboru alebo skriptu. Kliknite na Aj tak utekaj.
- Otvorí sa terminál a spustí sa nastavenie. Čoskoro sa nastavenie pozastaví a opýta sa vás, aký GPU používate. Vyberte príslušný typ GPU nainštalovaného v počítači a stlačte kláves Enter. Pre tých, ktorí nemajú vyhradenú grafickú kartu, vyberte Žiadne (chcem spúšťať modely v režime CPU). Majte na pamäti, že beh v režime CPU je oveľa pomalší v porovnaní s prevádzkou modelu s vyhradeným GPU.
- Po dokončení nastavenia môžete teraz lokálne spustiť Text-Generation-WebUI. Môžete tak urobiť otvorením preferovaného webového prehliadača a zadaním poskytnutej IP adresy na URL.
- WebUI je teraz pripravené na použitie.
Program je však iba modelovým nakladačom. Poďme si stiahnuť Llamu 2, aby sa spustil nakladač modelov.
Krok 3: Stiahnite si model Llama 2
Pri rozhodovaní o tom, ktorú iteráciu Llama 2 potrebujete, je potrebné zvážiť niekoľko vecí. Patria sem parametre, kvantizácia, optimalizácia hardvéru, veľkosť a využitie. Všetky tieto informácie nájdete v názve modelu.
- Parametre: Počet parametrov použitých na trénovanie modelu. Väčšie parametre robia schopnejšie modely, ale za cenu výkonu.
- Použitie: Môže byť štandardný alebo chat. Model chatu je optimalizovaný na použitie ako chatbot ako ChatGPT, zatiaľ čo štandard je predvolený model.
- Optimalizácia hardvéru: Vzťahuje sa na hardvér, ktorý najlepšie ovláda model. GPTQ znamená, že model je optimalizovaný na spustenie na vyhradenom GPU, zatiaľ čo GGML je optimalizovaný na spustenie na CPU.
- Kvantizácia: Označuje presnosť váh a aktivácií v modeli. Pre odvodenie je optimálna presnosť q4.
- Veľkosť: Vzťahuje sa na veľkosť konkrétneho modelu.
Upozorňujeme, že niektoré modely môžu byť usporiadané odlišne a nemusia mať dokonca zobrazené rovnaké typy informácií. Tento typ konvencie pomenovania je však pomerne bežný v HuggingFace Modelová knižnica, takže stále stojí za pochopenie.
V tomto príklade možno model identifikovať ako stredne veľký model Llama 2 trénovaný na 13 miliardách parametrov optimalizovaných na odvodzovanie chatu pomocou vyhradeného CPU.
Pre tých, ktorí používajú vyhradený GPU, vyberte a GPTQ model, zatiaľ čo pre tých, ktorí používajú CPU, vyberte GGML. Ak chcete chatovať s modelom ako s ChatGPT, vyberte si chatovať, ale ak chcete experimentovať s modelom s jeho plnými možnosťami, použite štandardné Model. Čo sa týka parametrov, vedzte, že použitie väčších modelov poskytne lepšie výsledky na úkor výkonu. Osobne by som vám odporučil začať s modelom 7B. Čo sa týka kvantovania, použite q4, pretože slúži len na odvodzovanie.
Stiahnuť ▼:GGML (Zadarmo)
Stiahnuť ▼:GPTQ (Zadarmo)
Teraz, keď viete, akú iteráciu Llama 2 potrebujete, pokračujte a stiahnite si model, ktorý chcete.
V mojom prípade, keďže to používam na ultrabooku, budem používať model GGML vyladený na chatovanie, lama-2-7b-chat-ggmlv3.q4_K_S.bin.
Po dokončení sťahovania vložte model text-generation-webui-main > modelov.
Teraz, keď máte model stiahnutý a umiestnený v priečinku modelu, je čas nakonfigurovať nakladač modelu.
Krok 4: Nakonfigurujte Text-Generation-WebUI
Teraz začneme fázu konfigurácie.
- Ešte raz otvorte Text-Generation-WebUI spustením start_(váš OS) súbor (pozri predchádzajúce kroky vyššie).
- Na kartách umiestnených nad GUI kliknite Model. Kliknite na tlačidlo obnovenia v rozbaľovacej ponuke modelu a vyberte svoj model.
- Teraz kliknite na rozbaľovaciu ponuku Modelový nakladač a vyberte AutoGPTQ pre tých, ktorí používajú model GTPQ a ctransformátory pre tých, ktorí používajú model GGML. Nakoniec kliknite na Naložiť na načítanie vášho modelu.
- Ak chcete model použiť, otvorte kartu Rozhovor a začnite testovať model.
Gratulujeme, úspešne ste nahrali Llama2 na váš lokálny počítač!
Vyskúšajte iné LLM
Teraz, keď viete, ako spustiť Llama 2 priamo na vašom počítači pomocou Text-Generation-WebUI, mali by ste byť schopní spustiť aj iné LLM okrem Llama. Len si zapamätajte konvencie pomenovania modelov a to, že na bežné počítače je možné načítať iba kvantované verzie modelov (zvyčajne s presnosťou q4). Na HuggingFace je dostupných veľa kvantovaných LLM. Ak chcete preskúmať ďalšie modely, vyhľadajte TheBloke v knižnici modelov HuggingFace a mali by ste nájsť veľa dostupných modelov.