8 kľúčových faktorov, ktoré je potrebné zvážiť pri testovaní presnosti AI chatbotov

Môžete otestovať rôzne chatboty AI, aby ste zistili, ktorý z nich funguje najlepšie. Ale ako by ste to mali urobiť? Tu je niekoľko kľúčových faktorov, ktoré treba zvážiť.

Umelá inteligencia prešla dlhú cestu od vytvárania irelevantného, nesúrodého výstupu. Moderné chatboty používajú pokročilé jazykové modely, ktoré okrem iných zložitých úloh odpovedajú na všeobecné otázky, tvoria dlhé eseje a píšu kód.

Napriek týmto pokrokom si uvedomte, že aj tie najsofistikovanejšie systémy majú svoje obmedzenia. AI stále robí chyby. Ak chcete zistiť, ktoré chatboty sú najmenej náchylné na halucinácie, otestujte ich presnosť na základe týchto faktorov.

1. Počítanie

Spustite matematické rovnice prostredníctvom chatbotov. Otestujú schopnosť platformy analyzovať slovné úlohy, prekladať matematické pojmy a aplikovať správne vzorce. Spoľahlivú numerickú gramotnosť preukazuje len niekoľko modelov. V skutočnosti jeden z Najhoršie problémy ChatGPT počas jeho prvé mesiace boli hrozné pochopenie matematiky.

Nasledujúci obrázok ukazuje, že ChatGPT zlyháva v základných štatistikách.

instagram viewer

ChatGPT ukázal zlepšenie po OpenAI vydala svoje aktualizácie z mája 2023. Ale vzhľadom na obmedzené množiny údajov budete mať stále problémy so stredne pokročilými až pokročilými matematickými výpočtami.

Medzitým Bing Chat a Google Bard vykazujú lepšiu numerickú gramotnosť. Spúšťajú dopyty prostredníctvom príslušných vyhľadávacích nástrojov, čo im umožňuje získavať vzorce a hárky s odpoveďami.

Skúste preformulovať svoje slovné úlohy. Vyhnite sa dlhým vetám a nahraďte slabé slovesá; inak by chatboty mohli nesprávne pochopiť vaše otázky.

2. Porozumenie

Moderné systémy AI môžu vykonávať viacero úloh. Pokročilé LLM im umožňujú uchovávať predchádzajúce pokyny a odpovedať na výzvy podľa sekcií, zatiaľ čo staršie systémy spracovávajú jednotlivé príkazy. Napríklad Siri odpovedá na jednu otázku naraz.

Zadajte chatbotom tri až päť úloh súčasne, aby ste otestovali, ako dobre analyzujú zložité výzvy. Menej sofistikované modely nedokážu spracovať toľko informácií. Obrázok nižšie zobrazuje poruchu HuggingChat v troch krokoch – zastaví sa v kroku jedna a odkloní sa od témy.

Posledné riadky HuggingChat sú už nesúvislé.

ChatGPT rýchlo dokončí rovnakú výzvu a generuje bezchybné a inteligentné odpovede na každom kroku.

Bing Chat poskytuje zhustenú odpoveď na tri kroky. Jeho prísne obmedzenia zakazujú zbytočne dlhé výstupy, ktoré plytvajú výkonom spracovania.

3. Včasnosť

Keďže školenie AI stojí obrovské zdroje, väčšina vývojárov obmedzuje súbory údajov na konkrétne obdobia. Vezmite si ako príklad ChatGPT. Má uzávierku vedomostí v septembri 2021 – nemôžete požadovať aktualizácie počasia, správy ani najnovší vývoj. Tu ChatGPT hovorí, že nemá prístup k informáciám v reálnom čase.

Bard má prístup na internet. Sťahuje údaje z Google SERP, takže môžete klásť širšiu škálu otázok, napr. nedávne udalosti, novinky a predpovede.

Podobne aj Bing Chat získava informácie v reálnom čase zo svojho vyhľadávača.

Bing Chat a Bard dodávajú včasné a aktuálne informácie, no tie poskytujú podrobnejšie odpovede. Bing iba prezentuje údaje tak, ako sú. Všimnete si, že jeho výstupy sa často doslovne zhodujú s frázovaním a tónom prepojených zdrojov.

4. Relevantnosť

Chatboty musia poskytovať relevantné výstupy. Pri odpovedi by mali zvážiť doslovný a kontextový význam vašich výziev. Vezmite si tento rozhovor ako príklad. Naša osobnosť potrebuje nový telefón, ale má len 1 000 $ – ChatGPT nepresahuje rozpočet.

Pri testovaní relevantnosti skúste vytvoriť zdĺhavé pokyny. Menej sofistikované chatboty majú tendenciu spúšťať sa na tangente, keď sú kŕmené mätúcimi pokynmi. HuggingChat môže napríklad skladať fiktívne príbehy. Môže sa však odchýliť od hlavnej témy, ak nastavíte príliš veľa pravidiel a pokynov.

5. Kontextová pamäť

Kontextová pamäť pomáha AI produkovať presný a spoľahlivý výstup. Namiesto toho, aby vaše otázky považovali za nominálnu hodnotu, spoja dohromady podrobnosti, ktoré spomínate. Vezmite si tento rozhovor ako príklad. Bing Chat spája dve samostatné správy, aby vytvorili užitočnú a stručnú odpoveď.

Podobne kontextová pamäť umožňuje chatbotom zapamätať si pokyny. Tento obrázok ukazuje ChatGPT napodobňujúci spôsob, akým fiktívna postava rozpráva počas niekoľkých rozhovorov.

Otestujte túto funkciu sami dôsledným odkazovaním na predchádzajúce vyhlásenia. Podávajte chatbotom rôzne informácie a potom ich prinútiť, aby si ich v neskorších odpovediach spomenuli.

Kontextová pamäť je obmedzená. Bing Chat začína nové konverzácie každých 20 ťahov, zatiaľ čo ChatGPT nedokáže spracovať výzvy viac ako 3 000 tokenov.

6. Bezpečnostné obmedzenia

AI nie vždy funguje tak, ako má. Môže to spôsobiť chybný tréning technológie strojového učenia na páchanie rôznych chýb, od drobných matematických chýb až po problematické komentáre. Vezmite Microsoft Tay ako príklad. Používatelia Twitteru využili jeho model učenia bez dozoru a podmienili ho vyslovením rasových urážok.

Našťastie sa svetoví tech lídri poučili z omylu spoločnosti Microsoft. Hoci je učenie bez dozoru nákladovo efektívne a pohodlné, systémy AI sú náchylné na klamanie. Preto sa vývojári v súčasnosti spoliehajú predovšetkým na učenie pod dohľadom. Chatbotom sa páči ChatGPT sa stále učí z rozhovorov, ale ich tréneri najprv filtrujú informácie.

Očakávajte odlišné pokyny od spoločností AI. Menej prísne obmedzenia ChatGPT vyhovujú širšej škále úloh, ale sú slabé voči zneužívaniu. Medzitým Bing Chat dodržiava prísnejšie limity. Pomáhajú v boji proti pokusom o zneužitie, ale zároveň bránia funkčnosti. Bing automaticky vypne potenciálne škodlivé konverzácie.

7. Predsudky AI

AI je vo svojej podstate neutrálna. Jeho nedostatok preferencií a emócií ho robí neschopným vytvárať si názory – iba prezentuje informácie, ktoré pozná. Tu je návod, ako ChatGPT reaguje na subjektívne témy.

Napriek tejto neutralite zaujatosti AI stále vznikajú. Vychádzajú zo vzorov, množín údajov, algoritmov a modelov, ktoré používajú vývojári. AI môže byť nestranná, ale ľudia nie.

napr. Brookingsov inštitút tvrdí, že ChatGPT demonštruje ľavicové politické predsudky. OpenAI tieto obvinenia samozrejme popiera. Aby sa však zabránilo podobným problémom s novšími modelmi, ChatGPT sa úplne vyhýba názorovým výstupom.

Rovnako aj Bing Chat sa vyhýba citlivým, subjektívnym záležitostiam.

Posúďte zaujatosť AI kladením otvorených otázok založených na názoroch. Hovorte o témach bez správnej alebo nesprávnej odpovede – menej sofistikované chatboty budú pravdepodobne prejavovať neopodstatnené preferencie voči konkrétnym skupinám.

8. Referencie

AI len zriedka kontroluje fakty. Iba získava informácie zo svojich súborov údajov a preformuluje ich prostredníctvom jazykových modelov. Bohužiaľ, obmedzený tréning spôsobuje AI halucinácie. Na výskum môžete stále používať generatívne nástroje AI, ale overte si fakty sami. Výstup berte s rezervou.

Bing Chat zjednodušuje proces overovania faktov tým, že uvádza svoje referencie po každom výstupe.

Bard AI neuvádza svoje zdroje, ale vytvára aktualizované, podrobné vysvetlenia spustením vyhľadávacích dopytov Google. Hlavné body získate zo SERP.

ChatGPT je náchylný na nepresnosti. Jeho prerušenie vedomostí na rok 2021 mu bráni odpovedať na otázky o nedávnych udalostiach a incidentoch.

Vytvorte nové spôsoby testovania správnosti chatbotov

Umelá inteligencia nie je hlavná a konečná technológia. Hoci sofistikované systémy AI a jazykové modely predvádzajú pôsobivé výkony, dopúšťajú sa aj chýb a nezrovnalostí. Pozerajte sa na chatbotov skepticky. Platformy riadené AI môžete využívať iba vtedy, ak rozumiete ich funkciám a obmedzeniam.

Hoci existujú desiatky chatbotov naprieč platformami, ich spoľahlivosť a presnosť vás môže sklamať. Len stratíte čas ich testovaním. Na zabezpečenie kvalitných výsledkov vám odporúčame zamerať sa na tri najrobustnejšie modely na trhu: ChatGPT, Bing AI a Google Bard.

About Technology - denizatm.com

8 kľúčových faktorov, ktoré je potrebné zvážiť pri testovaní presnosti AI chatbotov

1. Počítanie

2. Porozumenie

3. Včasnosť

4. Relevantnosť

5. Kontextová pamäť

6. Bezpečnostné obmedzenia

7. Predsudky AI

8. Referencie

Vytvorte nové spôsoby testovania správnosti chatbotov

Kategórie

Recent Post

4 najlepšie stránky na testovanie obnovovacej frekvencie monitora

6 najlepších bezplatných FPS hier, ktoré si dnes môžete zahrať

4 spôsoby, ako odpovedať na pracovnú ponuku prostredníctvom e-mailu (s príkladmi)