Máte obavy z toho, že AI chatboty zbierajú obsah na vašom webe? Našťastie im to môžete zablokovať. Tu je návod.

V súčasnosti majú AI chatboty bezplatnú licenciu na zoškrabanie vašich webových stránok a používanie ich obsahu bez vášho povolenia. Obávate sa, že váš obsah bude zoškrabovaný takýmito nástrojmi?

Dobrou správou je, že môžete zabrániť nástrojom AI v prístupe na vaše webové stránky, existujú však určité výhrady. Tu vám ukážeme, ako zablokovať roboty pomocou súboru robots.txt pre vašu webovú stránku, plus klady a zápory takejto akcie.

Ako majú AI Chatboti prístup k vášmu webovému obsahu?

Chatboty AI sú trénované pomocou viacerých súborov údajov, z ktorých niektoré sú open source a sú verejne dostupné. Napríklad GPT3 bol trénovaný pomocou piatich súborov údajov výskumná práca publikovaná spoločnosťou OpenAI:

  1. Common Crawl (60 % váha pri tréningu)
  2. WebText2 (22 % váha pri tréningu)
  3. Knihy 1 (8 % váha pri tréningu)
  4. Knihy 2 (8 % váha pri tréningu)
  5. Wikipedia (3% váha pri tréningu)

Common Crawl

instagram viewer
zahŕňa petabajty (tisíce TB) údajov z webových stránok zhromaždených od roku 2008, podobne ako vyhľadávací algoritmus Google prehľadáva webový obsah. WebText2 je súbor údajov vytvorený spoločnosťou OpenAI, ktorý obsahuje približne 45 miliónov webových stránok, na ktoré sa odkazuje z príspevkov Reddit s najmenej tromi kladnými hlasmi.

Takže v prípade ChatGPT robot AI nepristupuje a neprechádza vaše webové stránky priamo – zatiaľ nie. Hoci, OpenAI oznámenie webového prehliadača hosteného službou ChatGPT vyjadril obavy, že by sa to mohlo zmeniť.

Medzitým by majitelia webových stránok mali dávať pozor na iných chatbotov AI, keďže sa ich na trh dostane viac. Bard je ďalšie veľké meno v odbore a vie sa o ňom len veľmi málo množiny údajov používané na jeho trénovanie. Je zrejmé, že vieme, že vyhľadávacie roboty Google neustále prehľadávajú webové stránky, ale to nevyhnutne neznamená, že Bard má prístup k rovnakým údajom.

Prečo sú niektorí vlastníci webových stránok znepokojení?

Najväčším problémom pre vlastníkov webových stránok je, že roboty AI ako ChatGPT, Bard a Bing Chat znehodnocujú ich obsah. Roboty AI využívajú existujúci obsah na generovanie svojich odpovedí, no zároveň znižujú potrebu používateľov pristupovať k pôvodnému zdroju. Namiesto toho, aby používatelia navštevovali webové stránky s cieľom získať prístup k informáciám, môžu jednoducho nechať Google alebo Bing vygenerovať súhrn informácií, ktoré potrebujú.

Pokiaľ ide o chatboty AI vo vyhľadávaní, vlastníkom webových stránok je veľkým problémom strata návštevnosti. V prípade Barda je to robot AI zriedkavo zahŕňa citácie vo svojich generatívnych odpovediach, ktoré používateľom oznamujú, z ktorých stránok získava informácie.

Takže okrem nahradenia návštev webových stránok odpoveďami AI Bard odstraňuje takmer akúkoľvek šancu, že zdrojový web dostane návštevnosť – aj keď používateľ chce viac informácií. Na druhej strane Bing Chat častejšie odkazuje na informačné zdroje.

Inými slovami, súčasná flotila generatívnych nástrojov AI je pomocou práce tvorcov obsahu systematicky nahrádzať potrebu tvorcov obsahu. Nakoniec sa musíte opýtať aký stimul to ponecháva vlastníkom webových stránok pokračovať v publikovaní obsahu. A čo sa stane s robotmi AI, keď webové stránky prestanú zverejňovať obsah, na ktorého fungovanie sa spoliehajú?

Ako blokovať roboty AI z vášho webu

Ak nechcete, aby roboty AI používali váš webový obsah, môžete im zablokovať prístup na vaše stránky pomocou robots.txt súbor. Bohužiaľ, musíte zablokovať každého jednotlivého robota a špecifikovať ho menom.

Napríklad robot Common Crawl sa nazýva CCBot a môžete ho zablokovať pridaním nasledujúceho kódu do súboru robots.txt:

User-agent: CCBot
Disallow: /

Tým sa zablokuje indexové prehľadávanie Common Crawl na vašom webe v budúcnosti, ale neodstránia sa tým žiadne údaje, ktoré už boli zhromaždené z predchádzajúcich indexových prehľadávaní.

Ak sa obávate, že nové doplnky ChatGPT pristupujú k vášmu webovému obsahu, OpenAI už bol zverejnený pokyny na zablokovanie jeho robota. V tomto prípade sa robot ChatGPT nazýva ChatGPT-User a môžete ho zablokovať pridaním nasledujúceho kódu do súboru robots.txt:

User-agent: ChatGPT-User
Disallow: /

Zablokovanie prehľadávania vášho obsahu robotmi AI vyhľadávacieho nástroja je však úplne iný problém. Keďže Google je veľmi tajný, pokiaľ ide o tréningové údaje, ktoré používa, nie je možné identifikovať, ktoré roboty budete musieť zablokovať a či budú vôbec rešpektovať príkazy vo vašom robots.txt súbor (mnoho prehľadávačov nie).

Aká účinná je táto metóda?

Blokovanie AI robotov vo vašom robots.txt súbor je v súčasnosti najefektívnejšia metóda, ale nie je mimoriadne spoľahlivá.

Prvým problémom je, že musíte špecifikovať každého robota, ktorého chcete zablokovať, ale kto môže sledovať, či každý robot AI zasiahne trh? Ďalším problémom je, že príkazy vo vašom robots.txt súbor sú nepovinné pokyny. Zatiaľ čo Common Crawl, ChatGPT a mnoho ďalších robotov rešpektuje tieto príkazy, mnoho robotov nie.

Ďalšou veľkou výzvou je, že robotom AI môžete zablokovať iba budúce prehľadávanie. Nemôžete odstraňovať údaje z predchádzajúcich prehľadávaní ani odosielať žiadosti o vymazanie všetkých vašich údajov spoločnostiam, ako je OpenAI.

Bohužiaľ neexistuje jednoduchý spôsob, ako zablokovať prístup všetkých robotov AI na váš web a manuálne blokovanie každého jednotlivého robota je takmer nemožné. Aj keď budete držať krok s najnovšími robotmi AI na webe, neexistuje žiadna záruka, že všetci budú dodržiavať príkazy vo vašom robots.txt súbor.

Skutočnou otázkou je, či výsledky stoja za námahu, a krátka odpoveď je (takmer určite) nie.

Blokovanie robotov AI z vášho webu má tiež potenciálne nevýhody. Predovšetkým nebudete môcť zbierať zmysluplné údaje, aby ste dokázali, či nástroje ako Bard prospievajú alebo poškodzujú vašu marketingovú stratégiu vo vyhľadávaní.

Áno, môžete predpokladať, že nedostatok citácií je škodlivý, ale len hádate, či vám chýbajú údaje, pretože ste zablokovali robotom AI prístup k vášmu obsahu. Bol to podobný príbeh, keď Google prvýkrát predstavil odporúčané úryvky hľadať.

Pri relevantných dopytoch Google zobrazí úryvok obsahu z webových stránok na stránke s výsledkami, čím odpovie na otázku používateľa. To znamená, že používatelia sa nemusia preklikávať na webovú stránku, aby získali odpoveď, ktorú hľadajú. To spôsobilo paniku medzi majiteľmi webových stránok a odborníkmi na SEO, ktorí sa spoliehajú na generovanie návštevnosti z vyhľadávacích dopytov.

Typy dopytov, ktoré spúšťajú odporúčané úryvky, sú však vo všeobecnosti vyhľadávania s nízkou hodnotou, ako napríklad „čo je X“ alebo „aké je počasie v New Yorku“. Každý, kto chce podrobné informácie alebo komplexnú správu o počasí, sa stále prekliká, a kto ich nechce, nikdy nebol taký cenný.

Možno zistíte, že je to podobný príbeh s generatívnymi nástrojmi AI, ale budete potrebovať údaje, aby ste to dokázali.

Do ničoho sa neponáhľajte

Vlastníci a vydavatelia webových stránok sú pochopiteľne znepokojení technológiou AI a sú frustrovaní myšlienkou, že roboty využívajú ich obsah na generovanie okamžitých odpovedí. Toto však nie je čas na ponáhľanie sa do protiofenzívnych ťahov. Technológia AI je rýchlo sa rozvíjajúca oblasť a veci sa budú naďalej vyvíjať rýchlym tempom. Využite túto príležitosť a zistite, ako sa veci vyvíjajú, a analyzujte potenciálne hrozby a príležitosti, ktoré AI prináša.

Súčasný systém spoliehania sa na prácu tvorcov obsahu, ktorí ich nahradia, nie je udržateľný. Či už spoločnosti ako Google a OpenAI zmenia svoj prístup alebo vlády zavedú nové nariadenia, niečo musí dať. Zároveň sa čoraz viac prejavujú negatívne dôsledky AI chatbotov na tvorbu obsahu, čo môžu majitelia webových stránok a tvorcovia obsahu využiť vo svoj prospech.