Reklama

Ak ty prevádzkovať webovú stránku 10 spôsobov, ako vytvoriť malú a jednoduchú webovú stránku bez prehnanej práceWordPress môže byť prehnaný. Ako dokazujú tieto ďalšie vynikajúce služby, WordPress nie je všetko, čo by ste mali pri vytváraní webových stránok ukončiť. Ak chcete jednoduchšie riešenia, máte na výber. Čítaj viac , pravdepodobne ste už počuli o súbore robots.txt (alebo „štandarde vylúčenia robotov“). Či už máte alebo nie, je čas sa o tom dozvedieť, pretože tento jednoduchý textový súbor je kľúčovou súčasťou vášho webu. Môže sa to zdať bezvýznamné, ale možno vás prekvapí, aké je to dôležité.

Poďme sa pozrieť na to, čo je súbor robots.txt, na čo slúži a ako ho správne nastaviť pre váš web.

Čo je súbor robots.txt?

Ak chcete pochopiť, ako funguje súbor robots.txt, musíte to vedieť trochu o vyhľadávačoch Ako fungujú vyhľadávače?Pre mnohých ľudí JE Google internet. Je to pravdepodobne najdôležitejší vynález od samotného internetu. A hoci sa vyhľadávacie nástroje odvtedy veľa zmenili, základné princípy sú stále rovnaké. Čítaj viac

instagram viewer
. Skrátená verzia je, že vysielajú „crawlery“, čo sú programy, ktoré prehľadávajú internet a hľadajú informácie. Niektoré z týchto informácií si potom uložia, aby na ne mohli nasmerovať ľudí neskôr.

Tieto prehľadávače, známe aj ako „boty“ alebo „pavúky“, nachádzajú stránky z miliárd webových stránok. Vyhľadávače im dávajú pokyny, kam majú ísť, ale jednotlivé webové stránky môžu tiež komunikovať s robotmi a povedať im, ktoré stránky by si mali pozrieť.

Väčšinu času v skutočnosti robia opak a hovoria im, na ktorých stránkach nemal by pozerať sa. Veci ako administratívne stránky, backendové portály, stránky kategórií a značiek a ďalšie veci, ktoré vlastníci stránok nechcú, aby sa zobrazovali vo vyhľadávačoch. Tieto stránky sú stále viditeľné pre používateľov a sú prístupné každému, kto má povolenie (čo je často každý).

Ale tým, že týmto pavúkom poviete, aby neindexovali niektoré stránky, urobí súbor robots.txt každému službu. Ak ste vo vyhľadávači hľadali „MakeUseOf“, chceli by ste, aby sa naše administratívne stránky zobrazovali vysoko v hodnotení? Nie. Nikomu by to neprospelo, preto vyhľadávacím nástrojom hovoríme, aby ich nezobrazovali. Môže sa použiť aj na zabránenie vyhľadávacím nástrojom prezerať si stránky, ktoré im nemusia pomôcť pri klasifikácii vašej lokality vo výsledkoch vyhľadávania.

Stručne povedané, robots.txt hovorí webovým prehľadávačom, čo majú robiť.

Môžu indexové prehľadávače ignorovať súbor robots.txt?

Ignorujú niekedy indexové prehľadávače súbory robots.txt? Áno. V skutočnosti veľa prehľadávačov robiť nevšímaj si to. Vo všeobecnosti však tieto prehľadávače nepochádzajú z renomovaných vyhľadávacích nástrojov. Pochádzajú od spamerov, zberačov e-mailov a iné typy automatizovaných robotov Ako vytvoriť základný webový prehľadávač na získavanie informácií z webovej stránkyChceli ste niekedy zachytiť informácie z webovej stránky? Tu je návod, ako napísať prehľadávač na navigáciu na webovej lokalite a extrahovanie toho, čo potrebujete. Čítaj viac ktoré sa potulujú po internete. Je dôležité mať to na pamäti – používanie štandardu vylúčenia robotov, aby ste robotom povedali, aby sa vyhýbali, nie je účinným bezpečnostným opatrením. V skutočnosti niektorí roboti môžu začať so stránkami, na ktoré im poviete, aby nechodili.

Vyhľadávacie nástroje však budú robiť tak, ako hovorí váš súbor robots.txt, pokiaľ je správne naformátovaný.

Ako napísať súbor robots.txt

Existuje niekoľko rôznych častí, ktoré vstupujú do štandardného súboru vylúčenia robota. Tu ich rozoberiem každý jednotlivo.

Vyhlásenie používateľského agenta

Predtým, ako robotovi poviete, na ktoré stránky by sa nemal pozerať, musíte určiť, s ktorým robotom hovoríte. Väčšinu času budete používať jednoduché vyhlásenie, ktoré znamená „všetci roboti“. Vyzerá to takto:

User-agent: *

Hviezdička zastupuje „všetky roboty“. Môžete však zadať stránky pre určité roboty. Ak to chcete urobiť, musíte poznať názov robota, pre ktorý stanovujete pokyny. Môže to vyzerať takto:

User-agent: Googlebot. [zoznam stránok na indexové prehľadávanie] User-agent: Googlebot-Image/1.0. [zoznam stránok na indexové prehľadávanie] Používateľský agent: Bingbot. [zoznam stránok na indexové prehľadávanie]

A tak ďalej. Ak objavíte robota, ktorý vôbec nechcete prehľadávať vaše stránky, môžete to tiež určiť.

Ak chcete nájsť mená používateľských agentov, navštívte stránku useragentstring.com [už nie je k dispozícii].

Zakázanie stránok

Toto je hlavná časť vášho súboru vylúčenia robotov. Jednoduchým vyhlásením poviete robotovi alebo skupine robotov, aby neprechádzali určité stránky. Syntax je jednoduchá. Takto by ste zakázali prístup ku všetkému v adresári „admin“ vašej lokality:

Disallow: /admin/

Tento riadok by zabránil robotom prehľadávať yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html a čokoľvek iné, čo patrí do admin adresára.

Ak chcete zakázať jednu stránku, stačí ju zadať v riadku pre zákaz:

Disallow: /public/exception.html

Teraz sa stránka „výnimky“ nevykreslí, ale všetko ostatné v priečinku „verejné“ sa vykreslí.

Ak chcete zahrnúť viacero adresárov alebo stránok, uveďte ich v nasledujúcich riadkoch:

Disallow: /privátne/ Disallow: /admin/ Disallow: /cgi-bin/ Disallow: /temp/

Tieto štyri riadky sa budú vzťahovať na ľubovoľného používateľského agenta, ktorého ste zadali v hornej časti sekcie.

Ak chcete, aby sa roboty nepozerali na akúkoľvek stránku na vašom webe, použite toto:

Disallow: /

Stanovenie rôznych štandardov pre roboty

Ako sme videli vyššie, môžete určiť určité stránky pre rôznych robotov. Po spojení predchádzajúcich dvoch prvkov to vyzerá takto:

User-agent: googlebot. Disallow: /admin/ Disallow: /private/ User-agent: bingbot. Disallow: /admin/ Disallow: /privátne/ Disallow: /secret/

Sekcie „správca“ a „súkromné“ budú v službách Google a Bing neviditeľné, ale Google uvidí „tajný“ adresár, zatiaľ čo Bing nie.

Pomocou používateľského agenta hviezdičky môžete špecifikovať všeobecné pravidlá pre všetky roboty a potom v nasledujúcich sekciách dať robotom konkrétne pokyny.

Dávať to všetko dokopy

S vyššie uvedenými znalosťami môžete napísať úplný súbor robots.txt. Stačí spustiť svoj obľúbený textový editor (sme fanúšikov Sublime 11 úžasných textových tipov pre produktivitu a rýchlejší pracovný tokSublime Text je všestranný textový editor a zlatý štandard pre mnohých programátorov. Naše tipy sa zameriavajú na efektívne kódovanie, no bežní používatelia ocenia klávesové skratky. Čítaj viac tu) a začnite dávať robotom vedieť, že v určitých častiach vášho webu nie sú vítaní.

Ak si chcete pozrieť príklad súboru robots.txt, prejdite na ľubovoľnú stránku a na koniec pridajte „/robots.txt“. Tu je časť súboru robots.txt Giant Bicycles:

obrovský súbor robots.txt

Ako vidíte, existuje pomerne veľa stránok, ktoré nechcú, aby sa zobrazovali vo vyhľadávačoch. Zahŕňali aj niekoľko vecí, o ktorých sme ešte nehovorili. Poďme sa pozrieť na to, čo ešte môžete urobiť v súbore na vylúčenie robota.

Vyhľadanie súboru Sitemap

Ak váš súbor robots.txt hovorí robotom, kde nie ísť, tvoj sitemap robí opak Ako vytvoriť XML Sitemap v 4 jednoduchých krokochExistujú dva typy máp stránok – stránka HTML alebo súbor XML. HTML sitemap je jedna stránka, ktorá návštevníkom zobrazuje všetky stránky na webe a zvyčajne obsahuje odkazy na tie... Čítaj viac a pomáha im nájsť to, čo hľadajú. A hoci vyhľadávacie nástroje už pravdepodobne vedia, kde sa nachádza váš súbor Sitemap, nezaškodí im to znova oznámiť.

Vyhlásenie o umiestnení mapy webu je jednoduché:

Sitemap: [URL of sitemap]

to je všetko.

V našom vlastnom súbore robots.txt to vyzerá takto:

Sitemap: //www.makeuseof.com/sitemap_index.xml

To je všetko.

Nastavenie oneskorenia indexového prehľadávania

Direktíva oneskorenia prehľadávania informuje určité vyhľadávacie nástroje, ako často môžu indexovať stránku na vašej lokalite. Meria sa v sekundách, hoci niektoré vyhľadávače to interpretujú trochu inak. Niektorí vidia oneskorenie indexového prehľadávania 5 ako príkaz, aby po každom indexovom prehľadávaní počkali päť sekúnd a spustili ďalšie. Iní to interpretujú ako pokyn na indexové prehľadávanie iba jednej stránky každých päť sekúnd.

Prečo by ste povedali prehľadávaču, aby neliezol čo najviac? Komu zachovať šírku pásma 4 spôsoby, ako Windows 10 plytvá internetovým pripojenímNeplytvá Windows 10 rýchlosťou vášho internetového pripojenia? Tu je návod, ako to skontrolovať a čo môžete urobiť, aby ste to zastavili. Čítaj viac . Ak má váš server problém udržať krok s návštevnosťou, možno budete chcieť nastaviť oneskorenie indexového prehľadávania. Vo všeobecnosti sa toho väčšina ľudí nemusí obávať. Veľké stránky s vysokou návštevnosťou však možno budú chcieť trochu experimentovať.

Takto nastavíte oneskorenie indexového prehľadávania na osem sekúnd:

Oneskorenie indexového prehľadávania: 8

to je všetko. Nie všetky vyhľadávacie nástroje sa budú riadiť vašimi pokynmi. Ale nezaškodí sa opýtať. Podobne ako pri zakázaní stránok môžete pre konkrétne vyhľadávacie nástroje nastaviť rôzne oneskorenia indexového prehľadávania.

Nahrávanie vášho súboru robots.txt

Keď máte všetky pokyny vo svojom súbore nastavené, môžete ho nahrať na svoju stránku. Uistite sa, že je to obyčajný textový súbor a má názov robots.txt. Potom ho nahrajte na svoj web, aby ho bolo možné nájsť na adrese yoursite.com/robots.txt.

Ak používate a systém pre správu obsahu 10 najpopulárnejších online systémov na správu obsahuČasy ručne kódovaných stránok HTML a ovládania CSS sú dávno preč. Nainštalujte si redakčný systém (CMS) a v priebehu niekoľkých minút môžete mať webovú stránku, ktorú môžete zdieľať so svetom. Čítaj viac ako napríklad WordPress, pravdepodobne budete musieť postupovať presne takto. Keďže sa líši v každom systéme na správu obsahu, budete si musieť pozrieť dokumentáciu k vášmu systému.

Niektoré systémy môžu mať aj online rozhrania na nahrávanie vášho súboru. Pre tieto stačí skopírovať a prilepiť súbor, ktorý ste vytvorili v predchádzajúcich krokoch.

Nezabudnite aktualizovať svoj súbor

Posledná rada, ktorú vám dám, je občas si pozrieť svoj súbor s vylúčením robota. Vaša stránka sa mení a možno budete musieť vykonať nejaké úpravy. Ak si všimnete zvláštnu zmenu v návštevnosti vášho vyhľadávacieho nástroja, je dobré si pozrieť aj súbor. Je tiež možné, že štandardná notácia sa môže v budúcnosti zmeniť. Rovnako ako všetko ostatné na vašom webe, aj tento sa oplatí raz za čas skontrolovať.

Z ktorých stránok na svojej lokalite vylučujete indexové prehľadávače? Všimli ste si nejaký rozdiel v návštevnosti z vyhľadávačov? Podeľte sa o svoje rady a komentáre nižšie!

Dann je konzultant pre obsahovú stratégiu a marketing, ktorý pomáha spoločnostiam vytvárať dopyt a potenciálnych zákazníkov. O stratégii a obsahovom marketingu tiež bloguje na dannalbright.com.