Meta's Llama 2 môžete používať online, ale ak si ho nainštalujete na lokálny počítač, môžete si ho prispôsobiť a prispôsobiť.

Meta vydala Llama 2 v lete 2023. Nová verzia Llama je doladená o 40 % viac tokenov ako pôvodný model Llama, čím sa zdvojnásobila dĺžka kontextu a výrazne prekonala ostatné dostupné modely s otvoreným zdrojom. Najrýchlejší a najjednoduchší spôsob prístupu k Llama 2 je cez API cez online platformu. Ak však chcete ten najlepší zážitok, inštalácia a načítanie Llama 2 priamo na vašom počítači je najlepšia.

S ohľadom na to sme vytvorili podrobný návod, ako používať Text-Generation-WebUI na načítanie kvantovanej Llama 2 LLM lokálne do vášho počítača.

Prečo inštalovať Llama 2 lokálne

Existuje mnoho dôvodov, prečo sa ľudia rozhodnú spustiť Llamu 2 priamo. Niektorí to robia kvôli ochrane osobných údajov, niektorí kvôli prispôsobeniu a iní kvôli možnosti offline. Ak skúmate, dolaďujete alebo integrujete Llama 2 pre svoje projekty, potom prístup k Llama 2 cez API nemusí byť pre vás. Zmyslom spustenia LLM lokálne na vašom PC je znížiť spoliehanie sa na

instagram viewer
nástroje AI tretích strán a používajte AI kedykoľvek a kdekoľvek bez obáv z úniku potenciálne citlivých údajov do spoločností a iných organizácií.

S tým povedané, začnime s podrobným sprievodcom inštaláciou Llama 2 lokálne.

Aby sme veci zjednodušili, použijeme inštalačný program na jedno kliknutie pre Text-Generation-WebUI (program používaný na načítanie Llama 2 s GUI). Aby však tento inštalátor fungoval, musíte si stiahnuť nástroj Visual Studio 2019 Build Tool a nainštalovať potrebné prostriedky.

Stiahnuť ▼:Visual Studio 2019 (Zadarmo)

  1. Pokračujte a stiahnite si komunitnú edíciu softvéru.
  2. Teraz nainštalujte Visual Studio 2019 a potom otvorte softvér. Po otvorení začiarknite políčko Vývoj desktopu v C++ a stlačte inštalovať.

Teraz, keď máte nainštalovaný vývoj Desktop s C++, je čas stiahnuť si inštalátor Text-Generation-WebUI na jedno kliknutie.

Krok 2: Nainštalujte Text-Generation-WebUI

Inštalačný program Text-Generation-WebUI na jedno kliknutie je skript, ktorý automaticky vytvorí požadované priečinky a nastaví prostredie Conda a všetky potrebné požiadavky na spustenie modelu AI.

Ak chcete skript nainštalovať, stiahnite si inštalátor jedným kliknutím kliknutím na kód > Stiahnite si ZIP.

Stiahnuť ▼:Inštalátor generovania textu-WebUI (Zadarmo)

  1. Po stiahnutí rozbaľte súbor ZIP do preferovaného umiestnenia a potom otvorte extrahovaný priečinok.
  2. V priečinku prejdite nadol a vyhľadajte vhodný spúšťací program pre váš operačný systém. Spustite programy dvojitým kliknutím na príslušný skript.
    • Ak používate systém Windows, vyberte štart_windows dávkový súbor
    • pre MacOS vyberte start_macos škrupina
    • pre Linux, štart_linux shell skript.
  3. Váš antivírus môže vytvoriť výstrahu; toto je fajn. Výzva je len falošne pozitívny antivírus na spustenie dávkového súboru alebo skriptu. Kliknite na Aj tak utekaj.
  4. Otvorí sa terminál a spustí sa nastavenie. Čoskoro sa nastavenie pozastaví a opýta sa vás, aký GPU používate. Vyberte príslušný typ GPU nainštalovaného v počítači a stlačte kláves Enter. Pre tých, ktorí nemajú vyhradenú grafickú kartu, vyberte Žiadne (chcem spúšťať modely v režime CPU). Majte na pamäti, že beh v režime CPU je oveľa pomalší v porovnaní s prevádzkou modelu s vyhradeným GPU.
  5. Po dokončení nastavenia môžete teraz lokálne spustiť Text-Generation-WebUI. Môžete tak urobiť otvorením preferovaného webového prehliadača a zadaním poskytnutej IP adresy na URL.
  6. WebUI je teraz pripravené na použitie.

Program je však iba modelovým nakladačom. Poďme si stiahnuť Llamu 2, aby sa spustil nakladač modelov.

Krok 3: Stiahnite si model Llama 2

Pri rozhodovaní o tom, ktorú iteráciu Llama 2 potrebujete, je potrebné zvážiť niekoľko vecí. Patria sem parametre, kvantizácia, optimalizácia hardvéru, veľkosť a využitie. Všetky tieto informácie nájdete v názve modelu.

  • Parametre: Počet parametrov použitých na trénovanie modelu. Väčšie parametre robia schopnejšie modely, ale za cenu výkonu.
  • Použitie: Môže byť štandardný alebo chat. Model chatu je optimalizovaný na použitie ako chatbot ako ChatGPT, zatiaľ čo štandard je predvolený model.
  • Optimalizácia hardvéru: Vzťahuje sa na hardvér, ktorý najlepšie ovláda model. GPTQ znamená, že model je optimalizovaný na spustenie na vyhradenom GPU, zatiaľ čo GGML je optimalizovaný na spustenie na CPU.
  • Kvantizácia: Označuje presnosť váh a aktivácií v modeli. Pre odvodenie je optimálna presnosť q4.
  • Veľkosť: Vzťahuje sa na veľkosť konkrétneho modelu.

Upozorňujeme, že niektoré modely môžu byť usporiadané odlišne a nemusia mať dokonca zobrazené rovnaké typy informácií. Tento typ konvencie pomenovania je však pomerne bežný v HuggingFace Modelová knižnica, takže stále stojí za pochopenie.

V tomto príklade možno model identifikovať ako stredne veľký model Llama 2 trénovaný na 13 miliardách parametrov optimalizovaných na odvodzovanie chatu pomocou vyhradeného CPU.

Pre tých, ktorí používajú vyhradený GPU, vyberte a GPTQ model, zatiaľ čo pre tých, ktorí používajú CPU, vyberte GGML. Ak chcete chatovať s modelom ako s ChatGPT, vyberte si chatovať, ale ak chcete experimentovať s modelom s jeho plnými možnosťami, použite štandardné Model. Čo sa týka parametrov, vedzte, že použitie väčších modelov poskytne lepšie výsledky na úkor výkonu. Osobne by som vám odporučil začať s modelom 7B. Čo sa týka kvantovania, použite q4, pretože slúži len na odvodzovanie.

Stiahnuť ▼:GGML (Zadarmo)

Stiahnuť ▼:GPTQ (Zadarmo)

Teraz, keď viete, akú iteráciu Llama 2 potrebujete, pokračujte a stiahnite si model, ktorý chcete.

V mojom prípade, keďže to používam na ultrabooku, budem používať model GGML vyladený na chatovanie, lama-2-7b-chat-ggmlv3.q4_K_S.bin.

Po dokončení sťahovania vložte model text-generation-webui-main > modelov.

Teraz, keď máte model stiahnutý a umiestnený v priečinku modelu, je čas nakonfigurovať nakladač modelu.

Krok 4: Nakonfigurujte Text-Generation-WebUI

Teraz začneme fázu konfigurácie.

  1. Ešte raz otvorte Text-Generation-WebUI spustením start_(váš OS) súbor (pozri predchádzajúce kroky vyššie).
  2. Na kartách umiestnených nad GUI kliknite Model. Kliknite na tlačidlo obnovenia v rozbaľovacej ponuke modelu a vyberte svoj model.
  3. Teraz kliknite na rozbaľovaciu ponuku Modelový nakladač a vyberte AutoGPTQ pre tých, ktorí používajú model GTPQ a ctransformátory pre tých, ktorí používajú model GGML. Nakoniec kliknite na Naložiť na načítanie vášho modelu.
  4. Ak chcete model použiť, otvorte kartu Rozhovor a začnite testovať model.

Gratulujeme, úspešne ste nahrali Llama2 na váš lokálny počítač!

Vyskúšajte iné LLM

Teraz, keď viete, ako spustiť Llama 2 priamo na vašom počítači pomocou Text-Generation-WebUI, mali by ste byť schopní spustiť aj iné LLM okrem Llama. Len si zapamätajte konvencie pomenovania modelov a to, že na bežné počítače je možné načítať iba kvantované verzie modelov (zvyčajne s presnosťou q4). Na HuggingFace je dostupných veľa kvantovaných LLM. Ak chcete preskúmať ďalšie modely, vyhľadajte TheBloke v knižnici modelov HuggingFace a mali by ste nájsť veľa dostupných modelov.