Robots.txt – Ekonomická encyklopédia

Robots.txt: účel, limity a miesto v modernom SEO

Robots.txt je textový súbor umiestnený na koreňovej adrese hostiteľa (napr. https://www.priklad.sk/robots.txt), ktorý poskytuje prehľadávačom (crawlerom) pokyny, ktoré časti webu môžu alebo nemajú prechádzať. Hoci nejde o bezpečnostný mechanizmus a nebráni priamemu prístupu, správne nastavenie výrazne ovplyvňuje crawl budget, rýchlosť indexácie a konzistentnosť dát pre AIO/AEO a moderné SEO.

Základná štruktúra súboru a smernice

User-agent: definuje, pre ktorého robota platí blok pravidiel (napr. User-agent: * pre všetkých).
Disallow: cesta, ktorú robot nemá prechádzať (napr. Disallow: /admin/).
Allow: cesta, ktorú robot môže prechádzať, typicky na precizovanie výnimky v rámci zakázaného adresára (napr. Allow: /admin/help.html).
Sitemap: odkaz na XML súbor(y) s mapou stránok (napr. Sitemap: https://www.priklad.sk/sitemap.xml), môže sa vyskytovať viacnásobne a nemusí byť v sekcii konkrétneho agenta.
Crawl-delay: neštandardná smernica, ktorú niektoré vyhľadávače rešpektujú; Google ju ignoruje. Slúži na spomalenie počtu dotazov.
Host a Clean-param: proprietárne smernice (napr. pre Yandex); Google ich nevyužíva.

Pravidlá zhody ciest, špecifickosť a poradie

V moderných implementáciách (napr. Googlebot) platí, že sa uplatní najšpecifickejšie pravidlo voči danej URL. Vzory môžu používať zástupné znaky * (ľubovoľná postupnosť znakov) a $ (koniec reťazca). Príklady:

Disallow: /vyhladavanie/* zablokuje všetko pod /vyhladavanie/.
Allow: /vyhladavanie/povolené vytvorí výnimku pre konkrétnu cestu.
Disallow: /*?session= zacieli na URL s parametrom session.
Disallow: /*.pdf$ zacieli na URL končiace koncovkou .pdf.

Rozdiel medzi prehľadávaním a indexáciou

Disallow bráni prehľadávaniu, nie nutne indexácii. Ak na zablokovanú URL ukazuje veľa odkazov, môže sa objaviť v indexe bez obsahu (bez snippetu). Na zabránenie indexácie použite noindex v meta alebo hlavičke X-Robots-Tag – to však vyžaduje, aby bola stránka prehľadateľná. Ak URL blokujete v robots.txt, robot sa k meta tagu nedostane. Preto pri citlivých URL používajte autentifikáciu alebo kontrolu prístupu; robots.txt nie je bezpečnostná bariéra.

Umiestnenie, rozsah a viac hostiteľov

Robots.txt je per hostiteľ a protokol: https://sub.priklad.sk/robots.txt riadi iba sub.priklad.sk a protokol HTTPS. http:// a iné subdomény vyžadujú vlastný súbor.
Pre viacjazyčné verzie v subdoménach alebo na CDN vytvorte samostatné robots.txt na každom hoste.
Maximálna veľkosť spracovania býva limitovaná (napr. Google spracuje len prvých ~500 kB). Dlhé súbory udržiavajte štíhle a prebytočné komentáre odstráňte.

HTTP odpovede a správanie crawlerov

200 OK: pravidlá sa aplikujú.
404/410: znamená „robots.txt neexistuje“, prehľadávač predvolene nič neblokuje.
5xx alebo dočasné zlyhanie: niektoré prehľadávače dočasne obmedzia alebo odložia prehľadávanie, aby nezaťažovali server.
Robots.txt sa cacheuje; zmeny sa nemusia prejaviť okamžite. Zohľadnite to pri nasadzovaní.

Sitemap v robots.txt a ich vplyv

Direktíva Sitemap: zjednodušuje objavovanie XML sitemáp a feedov (napr. Sitemap: https://www.priklad.sk/sitemap-index.xml). Uveďte aj sitemapy pre obrázky či video, ak existujú. Umiestnenie v robots.txt nie je povinné – alternatívou je odoslanie v Search Console alebo deklarácia v hlavičkách odpovedí.

Interakcia s ďalšími direktívami a štandardmi

Meta robots (<meta name="robots" content="noindex,nofollow">) pôsobí až po prehľadaní stránky. Ak URL zablokujete v robots.txt, robot meta neuvidí.
X-Robots-Tag v HTTP hlavičke umožňuje globálnejšie riadenie (napr. pre súbory PDF: X-Robots-Tag: noindex, nofollow).
rel=“nofollow“ na odkazoch neblokuje crawl cieľovej URL, iba znižuje prenos signálov; ak chcete reálne znížiť zaťaženie crawlom, použite robots.txt alebo iné mechanizmy.

Stratégia pre crawl budget a performance

Dobre navrhnutý robots.txt pomáha smerovať crawl na stránky s hodnotou a minimalizovať šum. V kontexte veľkých webov (e-commerce, spravodajstvo) je vhodné blokovať generované filtre a nekonečné kombinácie parametrov, ktoré neprinášajú dodatočný obsah. Zároveň však neblokujte kritické zdroje (CSS/JS), aby si prehľadávače udržali schopnosť správne renderovať layout a hodnotiť Core Web Vitals.

Odporúčané vzory pre bežné scenáre

Základ pre všetkých agentov:
User-agent: * Disallow: /admin/ Disallow: /krok-platby/ Allow: /admin/help.html Sitemap: https://www.priklad.sk/sitemap.xml
Precízne cielenie parametrov:
User-agent: * Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?session= Disallow: /*&session=
Výnimka v zakázanom adresári:
User-agent: * Disallow: /statika/ Allow: /statika/logo.svg
Špecifické pravidlo pre bota (napr. rýchlejší spravodajský bot):
User-agent: NewsBot Disallow: User-agent: * Disallow: /interné/
Blokovanie súborových typov (vhodne zvážte):
User-agent: * Disallow: /*.zip$ Disallow: /*.bak$

Najčastejšie chyby a ako sa im vyhnúť

Omylom zablokované CSS/JS: pravidlá typu Disallow: /wp-includes/ môžu brániť renderingu. Uistite sa, že kritické assety zostávajú dostupné.
Blokovanie stránok, ktoré majú byť indexované: zablokovanie /produkt/ povedie k chýbajúcim snippettom a slabšiemu výkonu vo vyhľadávaní.
Spoliehanie sa na robots.txt pre „noindex“: nie je podporované; používajte meta alebo hlavičky.
Priveľa rozporuplných pravidiel: prehľadávače aplikujú najšpecifickejšie pravidlo; prehustené a protichodné zápisy zvyšujú riziko chýb.
Chýbajúci súbor na subdoménach: každý hostiteľ potrebuje vlastný robots.txt, inak sa predvolene nič neblokuje.

Robots.txt a AIO/AEO: vplyv na odpovede asistentov

Asistenti a LLM systémy čoraz častejšie rešpektujú signály o prístupe k obsahu a rýchlosti. Rozumný robots.txt, ktorý bráni plazeniu bezcenných parametrov a povoľuje render kritických zdrojov, zlepšuje dostupnosť reprezentatívneho obsahu a stabilitu metrik (LCP/INP/CLS). Tým prispieva k kvalitnejším citáciám, odpovediam a odporúčaniam v AIO/AEO kanáloch.

Proces riadenia zmien, QA a meranie dopadu

Vytvorte staging a validujte syntaktické chyby (napr. duplicitné znaky, medzery, neviditeľné znaky).
Logujte prístupy na /robots.txt a sledujte správanie kľúčových crawlerov po zmene.
Overte pokrytie v nástrojoch vyhľadávačov (napr. reporty o prehľadávaní a indexácii) a porovnajte crawl rate pred/po.
Priebežne auditujte pravidlá; čo bolo užitočné včera (blokovanie starých parametrov), môže byť prekážkou po redizajne.

Šablóna pre udržiavateľný robots.txt

Jednoduchá, komentovaná kostra, ktorú môžete prispôsobiť:

# ZÁKLAD: povoľ všetko, blokuj iba skutočný šum
User-agent: *
# Administratíva a súkromie
Disallow: /admin/
Disallow: /kosik/krok-platby/
# Parametre bez hodnoty pre indexáciu
Disallow: /*?sort=
Disallow: /*&sort=
# Výnimky pre kritické assety
Allow: /assets/css/
Allow: /assets/js/
# Sitemapy
Sitemap: https://www.priklad.sk/sitemap.xml
Sitemap: https://cdn.priklad.sk/sitemap-cdn.xml

Testovanie a validácia bez rizika

Overte, či sa súbor nachádza na správnej URL a vracia 200 OK s text/plain.
Simulujte pravidlá na reprezentatívnych URL (produkty, kategórie, filtre, obsahové články).
Sledujte renderovateľnosť: blokované CSS/JS zistíte aj v nástrojoch pre náhľad renderu a v logoch požiadaviek.

„Recepty“ pre špecifické CMS a scenáre

E-shop s filtrovaním: blokujte kombinácie parametrov, ktoré netvoria unikátny obsah. Použite vzory s * a explicitné výnimky pre hodnotné landingy.
Spravodajský web: neblokujte archívy ani stránkovanie, ale obmedzte interné vyhľadávanie (/hladat/), ak generuje duplicity.
Multijazyčný web: každý hostiteľ/subdoména má vlastný robots.txt; udržiavajte konzistenciu pravidiel naprieč jazykmi.
Súbory na stiahnutie: zvážte X-Robots-Tag: noindex v odpovedi servera pre PDF/ZIP, ak ich nechcete v indexe, a neupravujte ich len cez robots.txt.

Minimalistický, presný a auditovateľný robots.txt

Úspešný robots.txt je stručný, presne cielený a pravidelne auditovaný. Znižuje šum v crawli, chráni rozpočet, zachováva renderovateľnosť a nepodkopáva indexáciu. V kombinácii so sitemapami, meta/X-Robots-Tag a kvalitnou architektúrou webu tvorí stabilný základ pre moderné SEO aj pre AIO/AEO – aby sa k hodnotnému obsahu dostali tak ľudia, ako aj asistenti.

Samuel Salaj komentoval SCRUM
Filip Sichman komentoval Parcela
Šajno komentoval Odvolateľný akreditív
Šajto komentoval AVV
DawnBreaker komentoval Spoločnosť s ručením obmedzeným
Ellen komentoval Úverová kalkulačka
Julius Simsky komentoval Priemysel
Dwaewiel komentoval IOST (IOST)
Veronika B. komentoval Finančný trh
Peter Trnka komentoval Počítačový vírus