Pravdepodobne ste už počuli o OpenAI GPT, ale nie sú to jediné LLM v bloku.
Kľúčové informácie
- OpenAI GPT-4 je najpokročilejší a najrozšírenejší model veľkého jazyka s 1,76 biliónmi parametrov a multimodálnymi schopnosťami.
- Claude 2 od Anthropicu konkuruje GPT-4 v úlohách kreatívneho písania a drží si svoje miesto aj napriek tomu, že má menej zdrojov.
- PaLM 2 od Google, hoci nie je zabijak GPT-4, je výkonný jazykový model so silnými viacjazyčnými a tvorivými schopnosťami. Falcon-180B je model s otvoreným zdrojovým kódom, ktorý konkuruje komerčným gigantom a s GPT-3.5 dokáže obstáť od špičky až po špičku.
Je sezóna AI a technologické spoločnosti chrlia veľké jazykové modely ako chlieb z pekárne. Nové modely sa uvoľňujú rýchlo a je príliš ťažké ich sledovať.
Ale uprostred návalu nových vydaní sa len niekoľko modelov dostalo na vrchol a osvedčili sa ako skutoční uchádzači vo veľkom priestore jazykových modelov. S blížiacim sa koncom roka 2023 sme zostavili šesť najpôsobivejších veľkých jazykových modelov, ktoré by ste mali vyskúšať.
1. OpenAI GPT-4
GPT-4 je doteraz najpokročilejší verejne dostupný model veľkého jazyka. Vyvinuté OpenAI a vydané v marci 2023, GPT-4 je najnovšia iterácia zo série Generative Pre-trained Transformer ktorá sa začala v roku 2018. Vďaka svojim obrovským schopnostiam sa GPT-4 stal jedným z najpoužívanejších a najobľúbenejších veľkých jazykových modelov na svete.
Hoci to nie je oficiálne potvrdené, zdroje odhadujú, že GPT-4 môže obsahovať ohromujúcich 1,76 bilióna parametrov, približne desaťkrát viac ako jeho predchodca GPT-3.5 a päťkrát väčšie ako vlajková loď spoločnosti Google, PaLM 2. Táto masívna škála umožňuje multimodálne schopnosti GPT-4, čo umožňuje spracovávať text aj obrázky ako vstup. Výsledkom je, že GPT-4 dokáže okrem textu interpretovať a opísať aj vizuálne informácie, ako sú diagramy a snímky obrazovky. Jeho multimodálny charakter poskytuje ľudskému pochopeniu údajov z reálneho sveta.
Vo vedeckých benchmarkoch GPT-4 výrazne prevyšuje ostatné súčasné modely v rôznych testoch. Zatiaľ čo samotné benchmarky plne nepreukazujú silné stránky modelu, reálne prípady použitia ukázali, že GPT-4 je výnimočne zbehlý v intuitívnom riešení praktických problémov. GPT-4 sa v súčasnosti účtuje 20 USD mesačne a prístupné prostredníctvom plánu ChatGPT Plus.
2. Antropický Claude 2
Aj keď nie je tak populárny ako GPT-4, Claude 2, vyvinutý spoločnosťou Anthropic AI, môže zodpovedať technickým štandardom GPT -4 a výkonu v reálnom svete v niekoľkých oblastiach. V niektorých štandardizovaných testoch, vrátane vybraných skúšok, Claude 2 prekonáva GPT-4. Jazykový model AI má tiež výrazne lepšie kontextové okno s približne 100 000 tokenmi v porovnaní s modelmi tokenov GPT -4 8k a 32k. Hoci väčšia dĺžka kontextu nie vždy vedie k lepšiemu výkonu, rozšírená kapacita Claude 2 poskytuje jasné výhody, ako je napríklad spracovanie celých 75 000-slovných kníh na analýzu.
V celkovom výkone zostáva GPT-4 vynikajúci, ale naše interné testovanie ukazuje, že Claude 2 ju prevyšuje v niekoľkých úlohách tvorivého písania. Claude 2 tiež sleduje GPT-4 v programovacích a matematických zručnostiach na základe našich hodnotení, ale vyniká v poskytovaní ľudských, kreatívnych odpovedí. Keď sme vyzvali všetky modely na tomto zozname, aby napísali alebo prepísali kreatívne dielo, šesťkrát z desiatich, vybrali sme výsledok Claude 2 pre jeho prirodzene znejúce výsledky podobné ľuďom. v súčasnosti Claude 2 je k dispozícii zadarmo prostredníctvom chatbota Claude AI. K dispozícii je tiež platený plán za 20 dolárov za prístup k ďalším funkciám.
Napriek tomu, že má menšiu finančnú podporu ako giganti ako OpenAI a Microsoft, model umelej inteligencie Claude 2 od Anthropic si drží svoje postavenie v porovnaní s populárnymi modelmi GPT a sériou PaLM od Googlu. Pre AI s menším počtom zdrojov je Claude 2 pôsobivo konkurencieschopný. Ak budete nútení staviť na to, ktorý existujúci model má v blízkej budúcnosti najväčšiu šancu konkurovať GPT, Claude 2 sa zdá byť najbezpečnejšou stávkou. Hoci je Claude 2 prekonaný vo financovaní, pokročilé schopnosti Claude 2 naznačujú, že môže ísť od špičky k päte dobre financované monštrá (hoci stojí za zmienku, že spoločnosť Google prispela niekoľkými veľkými príspevkami antropické). Tento model presahuje svoju hmotnostnú kategóriu a je sľubný ako začínajúci vyzývateľ.
3. OpenAI GPT-3.5
Hoci je GPT-3.5 zatienený vydaním GPT-4, GPT-3.5 a jeho 175 miliárd parametrov netreba podceňovať. Prostredníctvom iteratívneho jemného ladenia a upgradov zameraných na výkon, presnosť a bezpečnosť prešiel GPT-3.5 od pôvodného modelu GPT-3 dlhú cestu. Hoci mu chýbajú multimodálne možnosti GPT -4 a zaostáva v dĺžke kontextu a počte parametrov, GPT-3.5 zostáva vysoko schopný, pričom GPT-4 je jediným modelom, ktorý dokáže prekonať svoj všestranný výkon rozhodne.
Napriek tomu, že ide o model druhej úrovne v rodine GPT, GPT-3.5 si dokáže udržať svoju pozíciu a dokonca prekonať vlajkové modely Google a Meta v niekoľkých benchmarkoch. Vo vedľajších testoch matematických a programovacích schopností proti PaLM 2 od Google neboli rozdiely výrazné, pričom GPT-3.5 mal v niektorých prípadoch dokonca mierny náskok. Pri kreatívnejších úlohách, ako je humor a písanie príbehov, sa GPT-3.5 rozhodne ťahal dopredu.
Takže zatiaľ čo GPT-4 predstavuje nový míľnik v AI, GPT-3.5 zostáva pôsobivo výkonným modelom, ktorý dokáže konkurovať a niekedy aj prekonať aj tie najpokročilejšie alternatívy. Jeho neustále zdokonaľovanie zaisťuje, že zostane relevantný aj pri okázalejších modeloch novej generácie.
4. PaLM 2 od Googlu
Pri hodnotení schopností modelu AI je osvedčeným vzorcom prečítať si technickú správu a skontrolujte skóre benchmarkov, ale všetko, čo ste sa naučili, berte s rezervou a otestujte model seba. Hoci sa to môže zdať kontraintuitívne, výsledky benchmarkov nie vždy zodpovedajú skutočnému výkonu niektorých modelov AI. PaLM 2 od Google mal byť na papieri zabijak GPT-4, pričom oficiálne výsledky testov naznačujú, že sa v niektorých benchmarkoch zhoduje s GPT-4. Pri každodennom používaní sa však objavuje iný obraz.
V logickom uvažovaní, matematike a kreativite PaLM 2 zaostáva za GPT-4. Za Claudom od Anthropic zaostáva aj v rade úloh kreatívneho písania. Napriek tomu, že nedokáže splniť svoje účtovanie ako zabijak GPT-4, PaLM 2 od Google zostáva výkonným jazykovým modelom sama o sebe, s obrovskými schopnosťami. Veľká časť negatívneho sentimentu okolo neho pramení skôr z porovnaní s modelmi ako GPT-4, než z vyslovene slabého výkonu.
S 340 miliardami parametrov patrí PaLM 2 medzi najväčšie svetové modely. Vyniká najmä vo viacjazyčných úlohách a má silné matematické a programovacie schopnosti. Hoci to nie je najlepšie, PaLM 2 je tiež celkom efektívny pri kreatívnych úlohách, ako je písanie. Takže zatiaľ čo benchmarky vykreslili optimistický obraz, ktorý sa úplne nenaplnil, PaLM 2 stále preukazuje pôsobivé schopnosti AI, aj keď neprevyšuje všetkých konkurentov vo všeobecnosti.
5. Falcon-180B od TII
Pokiaľ nedržíte krok s rýchlym tempom vydávania jazykových modelov AI, pravdepodobne ste sa nikdy nestretli s Falcon-180B. Falcon-180 so 180 miliardami parametrov, vyvinutý Technologickým inovačným inštitútom Spojených arabských emirátov, je jedným z najvýkonnejších jazykové modely s otvoreným zdrojovým kódom, aj keď im chýba rozpoznávanie názvov modelov GPT alebo rozšírené používanie značiek Meta Lama 2. Ale nenechajte sa pomýliť – Falcon-180B si poradí s tými najlepšími vo svojej triede.
Výsledky benchmarku odhaľujú, že Falcon-180B prekonáva väčšinu modelov s otvoreným zdrojom a konkuruje komerčným gigantom, ako sú PaLM 2 a GPT-3.5. Pri testovaní úloh matematiky, kódovania, uvažovania a kreatívneho písania dokonca prekonal GPT-3.5 a PaLM 2 na krát. Pri hodnotení GPT-4, GPT-3.5 a Falcon-180B by sme Falcon-180B zaradili priamo medzi GPT-4 a GPT-3.5 pre jeho silné stránky v niekoľkých prípadoch použitia.
Aj keď nemôžeme s istotou povedať, že je lepší ako GPT-3.5 v celkovom výkone, je to dôkaz. Aj keď je tento model nejasný, zaslúži si pozornosť, pretože zodpovedá alebo prekračuje možnosti známejších alternatív. Model Falcon-180B si môžete vyskúšať na Objímajúca tvár (open-source LLM platforma).
Llama 2, veľký jazykový model Meta AI so 70 miliardami parametrov, stavia na svojom predchodcovi Llama 1. Aj keď je Llama 2 menšia ako popredné modely, výrazne prekonáva väčšinu verejne dostupných LLM s otvoreným zdrojovým kódom v benchmarkoch a používaní v reálnom svete. Výnimkou by bol Falcon-180B.
Testovali sme Llama 2 proti GPT-4, GPT-3.5, Claude 2 a PaLM 2, aby sme zmerali jej schopnosti. Nie je prekvapením, že GPT-4 prekonala Llamu 2 takmer vo všetkých parametroch. Llama 2 však obstála oproti GPT-3.5 a PaLM 2 vo viacerých hodnoteniach. Aj keď by bolo nepresné tvrdiť, že Llama 2 je lepšia ako PaLM 2, Llama 2 vyriešila mnoho problémov, ktoré zabrzdili PaLM 2, vrátane úloh kódovania. Claude 2 a GPT-3.5 v niektorých oblastiach predčili Llamu 2, ale rozhodne boli lepšie len v obmedzenom počte úloh.
Takže, aj keď neprekračuje možnosti najväčších proprietárnych modelov, open-source Llama 2 je nad svojou váhovou triedou. Pre otvorene dostupný model demonštruje pôsobivý výkon a vo vybraných hodnoteniach konkuruje gigantom AI ako PaLM 2. Llama 2 poskytuje pohľad na budúci potenciál open-source jazykových modelov.
Rozdiel vo výkone medzi modelmi AI sa zmenšuje
Hoci sa prostredie AI vyvíja závratným tempom, OpenAI GPT-4 zostáva lídrom v balíku. Zatiaľ čo GPT-4 zostáva neprekonateľný v rozsahu a výkone, modely ako Claude 2 ukazujú, že s dostatočnou zručnosťou môžu menšie modely súťažiť vo vybraných oblastiach. PaLM 2 od Google, napriek tomu, že zaostáva za niektorými vznešenými očakávaniami, stále vykazuje hlboké schopnosti. Falcon-180B dokazuje, že open source iniciatívy môžu stáť bok po boku s priemyselnými titánmi, ak majú dostatok zdrojov.