Robots.txt: účel, limity a miesto v modernom SEO
Robots.txt je textový súbor umiestnený na koreňovej adrese hostiteľa (napr. https://www.priklad.sk/robots.txt), ktorý poskytuje prehľadávačom (crawlerom) pokyny, ktoré časti webu môžu alebo nemajú prechádzať. Hoci nejde o bezpečnostný mechanizmus a nebráni priamemu prístupu, správne nastavenie výrazne ovplyvňuje crawl budget, rýchlosť indexácie a konzistentnosť dát pre AIO/AEO a moderné SEO.
Základná štruktúra súboru a smernice
- User-agent: definuje, pre ktorého robota platí blok pravidiel (napr.
User-agent: *pre všetkých). - Disallow: cesta, ktorú robot nemá prechádzať (napr.
Disallow: /admin/). - Allow: cesta, ktorú robot môže prechádzať, typicky na precizovanie výnimky v rámci zakázaného adresára (napr.
Allow: /admin/help.html). - Sitemap: odkaz na XML súbor(y) s mapou stránok (napr.
Sitemap: https://www.priklad.sk/sitemap.xml), môže sa vyskytovať viacnásobne a nemusí byť v sekcii konkrétneho agenta. - Crawl-delay: neštandardná smernica, ktorú niektoré vyhľadávače rešpektujú; Google ju ignoruje. Slúži na spomalenie počtu dotazov.
- Host a Clean-param: proprietárne smernice (napr. pre Yandex); Google ich nevyužíva.
Pravidlá zhody ciest, špecifickosť a poradie
V moderných implementáciách (napr. Googlebot) platí, že sa uplatní najšpecifickejšie pravidlo voči danej URL. Vzory môžu používať zástupné znaky * (ľubovoľná postupnosť znakov) a $ (koniec reťazca). Príklady:
Disallow: /vyhladavanie/*zablokuje všetko pod/vyhladavanie/.Allow: /vyhladavanie/povolenévytvorí výnimku pre konkrétnu cestu.Disallow: /*?session=zacieli na URL s parametromsession.Disallow: /*.pdf$zacieli na URL končiace koncovkou.pdf.
Rozdiel medzi prehľadávaním a indexáciou
Disallow bráni prehľadávaniu, nie nutne indexácii. Ak na zablokovanú URL ukazuje veľa odkazov, môže sa objaviť v indexe bez obsahu (bez snippetu). Na zabránenie indexácie použite noindex v meta alebo hlavičke X-Robots-Tag – to však vyžaduje, aby bola stránka prehľadateľná. Ak URL blokujete v robots.txt, robot sa k meta tagu nedostane. Preto pri citlivých URL používajte autentifikáciu alebo kontrolu prístupu; robots.txt nie je bezpečnostná bariéra.
Umiestnenie, rozsah a viac hostiteľov
- Robots.txt je per hostiteľ a protokol:
https://sub.priklad.sk/robots.txtriadi ibasub.priklad.ska protokol HTTPS.http://a iné subdomény vyžadujú vlastný súbor. - Pre viacjazyčné verzie v subdoménach alebo na CDN vytvorte samostatné robots.txt na každom hoste.
- Maximálna veľkosť spracovania býva limitovaná (napr. Google spracuje len prvých ~500 kB). Dlhé súbory udržiavajte štíhle a prebytočné komentáre odstráňte.
HTTP odpovede a správanie crawlerov
- 200 OK: pravidlá sa aplikujú.
- 404/410: znamená „robots.txt neexistuje“, prehľadávač predvolene nič neblokuje.
- 5xx alebo dočasné zlyhanie: niektoré prehľadávače dočasne obmedzia alebo odložia prehľadávanie, aby nezaťažovali server.
- Robots.txt sa cacheuje; zmeny sa nemusia prejaviť okamžite. Zohľadnite to pri nasadzovaní.
Sitemap v robots.txt a ich vplyv
Direktíva Sitemap: zjednodušuje objavovanie XML sitemáp a feedov (napr. Sitemap: https://www.priklad.sk/sitemap-index.xml). Uveďte aj sitemapy pre obrázky či video, ak existujú. Umiestnenie v robots.txt nie je povinné – alternatívou je odoslanie v Search Console alebo deklarácia v hlavičkách odpovedí.
Interakcia s ďalšími direktívami a štandardmi
- Meta robots (
<meta name="robots" content="noindex,nofollow">) pôsobí až po prehľadaní stránky. Ak URL zablokujete v robots.txt, robot meta neuvidí. - X-Robots-Tag v HTTP hlavičke umožňuje globálnejšie riadenie (napr. pre súbory PDF:
X-Robots-Tag: noindex, nofollow). - rel=“nofollow“ na odkazoch neblokuje crawl cieľovej URL, iba znižuje prenos signálov; ak chcete reálne znížiť zaťaženie crawlom, použite robots.txt alebo iné mechanizmy.
Stratégia pre crawl budget a performance
Dobre navrhnutý robots.txt pomáha smerovať crawl na stránky s hodnotou a minimalizovať šum. V kontexte veľkých webov (e-commerce, spravodajstvo) je vhodné blokovať generované filtre a nekonečné kombinácie parametrov, ktoré neprinášajú dodatočný obsah. Zároveň však neblokujte kritické zdroje (CSS/JS), aby si prehľadávače udržali schopnosť správne renderovať layout a hodnotiť Core Web Vitals.
Odporúčané vzory pre bežné scenáre
- Základ pre všetkých agentov:
User-agent: *
Disallow: /admin/
Disallow: /krok-platby/
Allow: /admin/help.html
Sitemap: https://www.priklad.sk/sitemap.xml - Precízne cielenie parametrov:
User-agent: *
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?session=
Disallow: /*&session= - Výnimka v zakázanom adresári:
User-agent: *
Disallow: /statika/
Allow: /statika/logo.svg - Špecifické pravidlo pre bota (napr. rýchlejší spravodajský bot):
User-agent: NewsBot
Disallow:
User-agent: *
Disallow: /interné/ - Blokovanie súborových typov (vhodne zvážte):
User-agent: *
Disallow: /*.zip$
Disallow: /*.bak$
Najčastejšie chyby a ako sa im vyhnúť
- Omylom zablokované CSS/JS: pravidlá typu
Disallow: /wp-includes/môžu brániť renderingu. Uistite sa, že kritické assety zostávajú dostupné. - Blokovanie stránok, ktoré majú byť indexované: zablokovanie
/produkt/povedie k chýbajúcim snippettom a slabšiemu výkonu vo vyhľadávaní. - Spoliehanie sa na robots.txt pre „noindex“: nie je podporované; používajte meta alebo hlavičky.
- Priveľa rozporuplných pravidiel: prehľadávače aplikujú najšpecifickejšie pravidlo; prehustené a protichodné zápisy zvyšujú riziko chýb.
- Chýbajúci súbor na subdoménach: každý hostiteľ potrebuje vlastný robots.txt, inak sa predvolene nič neblokuje.
Robots.txt a AIO/AEO: vplyv na odpovede asistentov
Asistenti a LLM systémy čoraz častejšie rešpektujú signály o prístupe k obsahu a rýchlosti. Rozumný robots.txt, ktorý bráni plazeniu bezcenných parametrov a povoľuje render kritických zdrojov, zlepšuje dostupnosť reprezentatívneho obsahu a stabilitu metrik (LCP/INP/CLS). Tým prispieva k kvalitnejším citáciám, odpovediam a odporúčaniam v AIO/AEO kanáloch.
Proces riadenia zmien, QA a meranie dopadu
- Vytvorte staging a validujte syntaktické chyby (napr. duplicitné znaky, medzery, neviditeľné znaky).
- Logujte prístupy na
/robots.txta sledujte správanie kľúčových crawlerov po zmene. - Overte pokrytie v nástrojoch vyhľadávačov (napr. reporty o prehľadávaní a indexácii) a porovnajte crawl rate pred/po.
- Priebežne auditujte pravidlá; čo bolo užitočné včera (blokovanie starých parametrov), môže byť prekážkou po redizajne.
Šablóna pre udržiavateľný robots.txt
Jednoduchá, komentovaná kostra, ktorú môžete prispôsobiť:
# ZÁKLAD: povoľ všetko, blokuj iba skutočný šumUser-agent: *# Administratíva a súkromieDisallow: /admin/Disallow: /kosik/krok-platby/# Parametre bez hodnoty pre indexáciuDisallow: /*?sort=Disallow: /*&sort=# Výnimky pre kritické assetyAllow: /assets/css/Allow: /assets/js/# SitemapySitemap: https://www.priklad.sk/sitemap.xmlSitemap: https://cdn.priklad.sk/sitemap-cdn.xml
Testovanie a validácia bez rizika
- Overte, či sa súbor nachádza na správnej URL a vracia
200 OKstext/plain. - Simulujte pravidlá na reprezentatívnych URL (produkty, kategórie, filtre, obsahové články).
- Sledujte renderovateľnosť: blokované CSS/JS zistíte aj v nástrojoch pre náhľad renderu a v logoch požiadaviek.
„Recepty“ pre špecifické CMS a scenáre
- E-shop s filtrovaním: blokujte kombinácie parametrov, ktoré netvoria unikátny obsah. Použite vzory s
*a explicitné výnimky pre hodnotné landingy. - Spravodajský web: neblokujte archívy ani stránkovanie, ale obmedzte interné vyhľadávanie (
/hladat/), ak generuje duplicity. - Multijazyčný web: každý hostiteľ/subdoména má vlastný robots.txt; udržiavajte konzistenciu pravidiel naprieč jazykmi.
- Súbory na stiahnutie: zvážte
X-Robots-Tag: noindexv odpovedi servera pre PDF/ZIP, ak ich nechcete v indexe, a neupravujte ich len cez robots.txt.
Minimalistický, presný a auditovateľný robots.txt
Úspešný robots.txt je stručný, presne cielený a pravidelne auditovaný. Znižuje šum v crawli, chráni rozpočet, zachováva renderovateľnosť a nepodkopáva indexáciu. V kombinácii so sitemapami, meta/X-Robots-Tag a kvalitnou architektúrou webu tvorí stabilný základ pre moderné SEO aj pre AIO/AEO – aby sa k hodnotnému obsahu dostali tak ľudia, ako aj asistenti.