Robots.txt

Robots.txt

Robots.txt: účel, limity a miesto v modernom SEO

Robots.txt je textový súbor umiestnený na koreňovej adrese hostiteľa (napr. https://www.priklad.sk/robots.txt), ktorý poskytuje prehľadávačom (crawlerom) pokyny, ktoré časti webu môžu alebo nemajú prechádzať. Hoci nejde o bezpečnostný mechanizmus a nebráni priamemu prístupu, správne nastavenie výrazne ovplyvňuje crawl budget, rýchlosť indexácie a konzistentnosť dát pre AIO/AEO a moderné SEO.

Základná štruktúra súboru a smernice

  • User-agent: definuje, pre ktorého robota platí blok pravidiel (napr. User-agent: * pre všetkých).
  • Disallow: cesta, ktorú robot nemá prechádzať (napr. Disallow: /admin/).
  • Allow: cesta, ktorú robot môže prechádzať, typicky na precizovanie výnimky v rámci zakázaného adresára (napr. Allow: /admin/help.html).
  • Sitemap: odkaz na XML súbor(y) s mapou stránok (napr. Sitemap: https://www.priklad.sk/sitemap.xml), môže sa vyskytovať viacnásobne a nemusí byť v sekcii konkrétneho agenta.
  • Crawl-delay: neštandardná smernica, ktorú niektoré vyhľadávače rešpektujú; Google ju ignoruje. Slúži na spomalenie počtu dotazov.
  • Host a Clean-param: proprietárne smernice (napr. pre Yandex); Google ich nevyužíva.

Pravidlá zhody ciest, špecifickosť a poradie

V moderných implementáciách (napr. Googlebot) platí, že sa uplatní najšpecifickejšie pravidlo voči danej URL. Vzory môžu používať zástupné znaky * (ľubovoľná postupnosť znakov) a $ (koniec reťazca). Príklady:

  • Disallow: /vyhladavanie/* zablokuje všetko pod /vyhladavanie/.
  • Allow: /vyhladavanie/povolené vytvorí výnimku pre konkrétnu cestu.
  • Disallow: /*?session= zacieli na URL s parametrom session.
  • Disallow: /*.pdf$ zacieli na URL končiace koncovkou .pdf.

Rozdiel medzi prehľadávaním a indexáciou

Disallow bráni prehľadávaniu, nie nutne indexácii. Ak na zablokovanú URL ukazuje veľa odkazov, môže sa objaviť v indexe bez obsahu (bez snippetu). Na zabránenie indexácie použite noindex v meta alebo hlavičke X-Robots-Tag – to však vyžaduje, aby bola stránka prehľadateľná. Ak URL blokujete v robots.txt, robot sa k meta tagu nedostane. Preto pri citlivých URL používajte autentifikáciu alebo kontrolu prístupu; robots.txt nie je bezpečnostná bariéra.

Umiestnenie, rozsah a viac hostiteľov

  • Robots.txt je per hostiteľ a protokol: https://sub.priklad.sk/robots.txt riadi iba sub.priklad.sk a protokol HTTPS. http:// a iné subdomény vyžadujú vlastný súbor.
  • Pre viacjazyčné verzie v subdoménach alebo na CDN vytvorte samostatné robots.txt na každom hoste.
  • Maximálna veľkosť spracovania býva limitovaná (napr. Google spracuje len prvých ~500 kB). Dlhé súbory udržiavajte štíhle a prebytočné komentáre odstráňte.

HTTP odpovede a správanie crawlerov

  • 200 OK: pravidlá sa aplikujú.
  • 404/410: znamená „robots.txt neexistuje“, prehľadávač predvolene nič neblokuje.
  • 5xx alebo dočasné zlyhanie: niektoré prehľadávače dočasne obmedzia alebo odložia prehľadávanie, aby nezaťažovali server.
  • Robots.txt sa cacheuje; zmeny sa nemusia prejaviť okamžite. Zohľadnite to pri nasadzovaní.

Sitemap v robots.txt a ich vplyv

Direktíva Sitemap: zjednodušuje objavovanie XML sitemáp a feedov (napr. Sitemap: https://www.priklad.sk/sitemap-index.xml). Uveďte aj sitemapy pre obrázky či video, ak existujú. Umiestnenie v robots.txt nie je povinné – alternatívou je odoslanie v Search Console alebo deklarácia v hlavičkách odpovedí.

Interakcia s ďalšími direktívami a štandardmi

  • Meta robots (<meta name="robots" content="noindex,nofollow">) pôsobí až po prehľadaní stránky. Ak URL zablokujete v robots.txt, robot meta neuvidí.
  • X-Robots-Tag v HTTP hlavičke umožňuje globálnejšie riadenie (napr. pre súbory PDF: X-Robots-Tag: noindex, nofollow).
  • rel=“nofollow“ na odkazoch neblokuje crawl cieľovej URL, iba znižuje prenos signálov; ak chcete reálne znížiť zaťaženie crawlom, použite robots.txt alebo iné mechanizmy.

Stratégia pre crawl budget a performance

Dobre navrhnutý robots.txt pomáha smerovať crawl na stránky s hodnotou a minimalizovať šum. V kontexte veľkých webov (e-commerce, spravodajstvo) je vhodné blokovať generované filtre a nekonečné kombinácie parametrov, ktoré neprinášajú dodatočný obsah. Zároveň však neblokujte kritické zdroje (CSS/JS), aby si prehľadávače udržali schopnosť správne renderovať layout a hodnotiť Core Web Vitals.

Odporúčané vzory pre bežné scenáre

  • Základ pre všetkých agentov:
    User-agent: *
    Disallow: /admin/
    Disallow: /krok-platby/
    Allow: /admin/help.html
    Sitemap: https://www.priklad.sk/sitemap.xml
  • Precízne cielenie parametrov:
    User-agent: *
    Disallow: /*?sort=
    Disallow: /*&sort=
    Disallow: /*?session=
    Disallow: /*&session=
  • Výnimka v zakázanom adresári:
    User-agent: *
    Disallow: /statika/
    Allow: /statika/logo.svg
  • Špecifické pravidlo pre bota (napr. rýchlejší spravodajský bot):
    User-agent: NewsBot
    Disallow:
    User-agent: *
    Disallow: /interné/
  • Blokovanie súborových typov (vhodne zvážte):
    User-agent: *
    Disallow: /*.zip$
    Disallow: /*.bak$

Najčastejšie chyby a ako sa im vyhnúť

  • Omylom zablokované CSS/JS: pravidlá typu Disallow: /wp-includes/ môžu brániť renderingu. Uistite sa, že kritické assety zostávajú dostupné.
  • Blokovanie stránok, ktoré majú byť indexované: zablokovanie /produkt/ povedie k chýbajúcim snippettom a slabšiemu výkonu vo vyhľadávaní.
  • Spoliehanie sa na robots.txt pre „noindex“: nie je podporované; používajte meta alebo hlavičky.
  • Priveľa rozporuplných pravidiel: prehľadávače aplikujú najšpecifickejšie pravidlo; prehustené a protichodné zápisy zvyšujú riziko chýb.
  • Chýbajúci súbor na subdoménach: každý hostiteľ potrebuje vlastný robots.txt, inak sa predvolene nič neblokuje.

Robots.txt a AIO/AEO: vplyv na odpovede asistentov

Asistenti a LLM systémy čoraz častejšie rešpektujú signály o prístupe k obsahu a rýchlosti. Rozumný robots.txt, ktorý bráni plazeniu bezcenných parametrov a povoľuje render kritických zdrojov, zlepšuje dostupnosť reprezentatívneho obsahu a stabilitu metrik (LCP/INP/CLS). Tým prispieva k kvalitnejším citáciám, odpovediam a odporúčaniam v AIO/AEO kanáloch.

Proces riadenia zmien, QA a meranie dopadu

  • Vytvorte staging a validujte syntaktické chyby (napr. duplicitné znaky, medzery, neviditeľné znaky).
  • Logujte prístupy na /robots.txt a sledujte správanie kľúčových crawlerov po zmene.
  • Overte pokrytie v nástrojoch vyhľadávačov (napr. reporty o prehľadávaní a indexácii) a porovnajte crawl rate pred/po.
  • Priebežne auditujte pravidlá; čo bolo užitočné včera (blokovanie starých parametrov), môže byť prekážkou po redizajne.

Šablóna pre udržiavateľný robots.txt

Jednoduchá, komentovaná kostra, ktorú môžete prispôsobiť:

  • # ZÁKLAD: povoľ všetko, blokuj iba skutočný šum
  • User-agent: *
  • # Administratíva a súkromie
  • Disallow: /admin/
  • Disallow: /kosik/krok-platby/
  • # Parametre bez hodnoty pre indexáciu
  • Disallow: /*?sort=
  • Disallow: /*&sort=
  • # Výnimky pre kritické assety
  • Allow: /assets/css/
  • Allow: /assets/js/
  • # Sitemapy
  • Sitemap: https://www.priklad.sk/sitemap.xml
  • Sitemap: https://cdn.priklad.sk/sitemap-cdn.xml

Testovanie a validácia bez rizika

  • Overte, či sa súbor nachádza na správnej URL a vracia 200 OK s text/plain.
  • Simulujte pravidlá na reprezentatívnych URL (produkty, kategórie, filtre, obsahové články).
  • Sledujte renderovateľnosť: blokované CSS/JS zistíte aj v nástrojoch pre náhľad renderu a v logoch požiadaviek.

„Recepty“ pre špecifické CMS a scenáre

  • E-shop s filtrovaním: blokujte kombinácie parametrov, ktoré netvoria unikátny obsah. Použite vzory s * a explicitné výnimky pre hodnotné landingy.
  • Spravodajský web: neblokujte archívy ani stránkovanie, ale obmedzte interné vyhľadávanie (/hladat/), ak generuje duplicity.
  • Multijazyčný web: každý hostiteľ/subdoména má vlastný robots.txt; udržiavajte konzistenciu pravidiel naprieč jazykmi.
  • Súbory na stiahnutie: zvážte X-Robots-Tag: noindex v odpovedi servera pre PDF/ZIP, ak ich nechcete v indexe, a neupravujte ich len cez robots.txt.

Minimalistický, presný a auditovateľný robots.txt

Úspešný robots.txt je stručný, presne cielený a pravidelne auditovaný. Znižuje šum v crawli, chráni rozpočet, zachováva renderovateľnosť a nepodkopáva indexáciu. V kombinácii so sitemapami, meta/X-Robots-Tag a kvalitnou architektúrou webu tvorí stabilný základ pre moderné SEO aj pre AIO/AEO – aby sa k hodnotnému obsahu dostali tak ľudia, ako aj asistenti.

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *