GPTBot pravdepodobne nie je to, čo si myslíte.

Kľúčové informácie

  • GPTBot od OpenAI je webový prehľadávač navrhnutý na zhromažďovanie údajov z verejných webových stránok, ktoré sa potom používajú na trénovanie a zlepšovanie modelov AI, ako sú GPT-4 a ChatGPT.
  • Niektoré z najväčších webových stránok na internete blokujú GPTBot, pretože pristupuje a používa obsah chránený autorskými právami bez povolenia alebo kompenzácie pre tvorcov.
  • Aj keď webové stránky môžu používať nástroje ako robots.txt, aby sa pokúsili zablokovať GPTBot, neexistujú žiadne záruky, že OpenAI bude vyhovovať a poskytne im kontrolu nad prístupom k údajom chráneným autorskými právami.

V auguste 2023 OpenAI, umelá inteligencia, ktorej sa pripisuje vývoj ChatGPT, oznámila GPTBot, webový prehľadávač určený na prechádzanie webu a zhromažďovanie údajov.

Krátko po tomto oznámení niektoré z najväčších webových stránok na internete zablokovali robotovi prístup na ich webovú stránku. Ale prečo? Čo je GPTBot OpenAI? Prečo sa toho veľké weby boja a prečo sa to snažia blokovať?

instagram viewer

Čo je GPTBot OpenAI?

GPTBot je webový prehľadávač vytvorený spoločnosťou OpenAI na vyhľadávanie na internete a zhromažďovanie informácií pre ciele vývoja AI spoločnosti OpenAI. Je naprogramovaný na prehľadávanie verejných webových stránok a odosielanie údajov späť na servery OpenAI. OpenAI potom používa tieto údaje na trénovanie a zlepšovanie svojich modelov AI s cieľom budovať čoraz pokročilejšie systémy umelej inteligencie. Na vytvorenie sofistikovaných modelov AI, ako je GPT-4 alebo jeho podriadených produktov, ako je ChatGPT, sú webové prehľadávače takmer nevyhnutné.

Tréning modelu AI si vyžaduje obrovské množstvo údajov a jedným z najúčinnejších spôsobov zhromažďovania týchto údajov je nasadenie nástrojov, ako sú webové prehľadávače. Crawlery môžu systematicky prehliadať web, sledovať odkazy na indexovanie veľkého množstva webových stránok a extrahovať kľúčové údaje, ako sú text, obrázky a metadáta, ktoré zodpovedajú vopred definovanému vzoru.

Tieto údaje potom možno štruktúrovať a vkladať do modelov AI, aby sa trénovali ich schopnosti spracovania prirodzeného jazyka alebo schopnosti generovania obrázkov alebo ich trénovali na iné úlohy AI. Stručne povedané, webové prehľadávače zhromažďujú údaje, ktoré umožňujú nástrojom ako ChatGPT alebo DALL-E robiť to, čo robia.

Webové prehľadávače nie sú novým konceptom. Pravdepodobne ich dnes milióny prehľadávajú miliardy webových stránok dostupných na internete. A existujú minimálne od začiatku 90. rokov. GPTBot je len jedným z takýchto prehľadávačov, ktoré vlastní OpenAI. Čo teda spôsobuje kontroverziu okolo tohto konkrétneho webového prehľadávača?

Prečo veľké technologické stránky blokujú GPTBot?

Podľa Business Insider, niektoré z najväčších webových stránok na internete aktívne blokujú prehľadávač OpenAI na svojich webových stránkach. Ak je teda konečným cieľom GPTBot napredovať vo vývoji AI, prečo sú niektoré z najväčších stránok na internete, z ktorých niektoré tak či onak profitovali z AI, proti?

No, tu je vec. Od oživenia generatívnych technológií AI v roku 2022 prebehlo množstvo diskusií o práve spoločností AI na takmer neobmedzene využívať údaje pochádzajúce z internetu, z ktorých značná časť je zákonom chránená autorské práva. Žiadne jasné zákony neupravujú, ako tieto spoločnosti zhromažďujú a používajú údaje pre svoj vlastný zisk.

Takže indexové prehľadávače ako GPTBot prehľadávajú web a získavajú kreatívnu prácu ľudí vo forme textu, obrázkov alebo iných foriem médiá a používať ich na komerčné účely bez získania akéhokoľvek povolenia, licencie alebo poskytnutia náhrady za originál tvorcovia.

Vonku je divoký západ a spoločnosti AI sa chytajú všetkého, čo im príde pod ruku. Veľké webové stránky ako Quora, CNN, New York Times, Business Insider a Amazon nie sú veľmi radi, že ich Tieto prehľadávače zhromažďujú obsah chránený autorskými právami, takže OpenAI z toho môže získať finančný prospech výdavok.

To je dôvod, prečo tieto stránky nasadzujú „robots.txt“, desaťročia starú metódu na blokovanie webových prehľadávačov. Podľa OpenAI, GPTBot sa bude riadiť pokynmi na indexové prehľadávanie alebo vyhýbanie sa indexovému prehľadávaniu webových stránok na základe pravidiel vložených do súboru robots.txt, malého textového súboru, ktorý webovým prehľadávačom povie, ako sa majú na lokalite správať. Ak máte vlastnú stránku a radi by ste zabránili GPTBot získavať vaše údaje, postupujte takto: blokovať prehľadávače OpenAI v zoškrabovaní vašich webových stránok.

Môžu webové stránky skutočne zastaviť GPTBot?

Zatiaľ čo prehľadávače ako GPTBot sú nevyhnutné na zhromažďovanie obrovského množstva požadovaných údajov trénujú pokročilé systémy AI, existujú opodstatnené obavy týkajúce sa autorských práv a spravodlivého používania, ktoré nemôžu byť ignoroval.

Iste, existujú jednoduché nástroje ako robots.txt, ktoré je možné použiť na ochranu pred týmto, ale to, či GPTBot poslúchne pokyny v tomto súbore, je výlučne na rozhodnutí OpenAI. Neexistujú žiadne záruky, že tak urobia, a neexistuje žiadny okamžitý spoľahlivý spôsob, ako zistiť, či tak urobili. V boji za udržanie GPTBot od údajov chránených autorskými právami má OpenAI esá, aspoň zatiaľ.