Log analýza: prepojenie serverových logov so SEO, AIO/AEO a optimalizáciou pre LLM
Log analýza je systematické vyhodnocovanie „surových” záznamov o návštevách a požiadavkách na server (HTTP(S) požiadavky a odpovede). V modernom SEO a AIO/AEO (Answer/AI Engine Optimization) predstavujú logy najpresnejší zdroj pravdy o tom, čo reálne prehľadávač (Googlebot, Bingbot, iní botovia, crawleri LLM) videl, ako často sa k obsahu vracia, ktoré súbory si vyžiadal, aké kódy odpovedí dostal a ako rýchlo mu server odpovedal. Na rozdiel od JavaScriptom meranej analytiky (ktorú boty typicky nespúšťajú) logy zachytávajú každý request – vrátane zdrojov, API a chránených či blokovaných ciest. Preto sú kľúčom k efektívnemu manažmentu crawl budgetu, diagnostike indexačných problémov a k zlepšeniu kvality odpovedí generovaných AI systémami.
Čo presne je „serverový log” a kde vzniká
- Webserver a reverzný proxy: Apache, Nginx, IIS alebo HAProxy/Envoy zachytávajú vstupné HTTP požiadavky ešte pred aplikáciou.
- CDN/WAF edge logy: Cloudové hraničné uzly (CDN, WAF) obsahujú dodatočné metadáta (cache hit/miss, geolokácia, mitigácie).
- Aplikačné logy: rámce (napr. PHP/Nette, Node.js, Python) dopĺňajú korelačné ID, latenciu, výnimky, interné presmerovania.
- Databázové/logy vyhľadávania: menej často priamo SEO, ale užitočné pri korelácii výkonnosti.
Formáty a polia: čo potrebujeme vidieť pre SEO
Najčastejšie sa stretnete s Common Log Format (CLF), Combined Log Format (pridáva referrer, user-agent) a čoraz častejšie s JSON logmi. Kľúčové polia pre SEO:
- Čas (timestamp, časová zóna) – nevyhnutný pre frekvenciu prehľadávania a recrawl kadenciu.
- Metóda (
GET,HEAD) – HEAD požiadavky botov sú bežné pri overovaní. - URL (path + query) – vrátane parametrov; umožní identifikovať nekonečné priestory a duplicity.
- Status kód (2xx, 3xx, 4xx, 5xx) – pre technickú kondíciu a signály indexácie.
- Bytová veľkosť (response bytes) – náznak „soft 404” alebo render blokujúcich chýb.
- Latency/TTFB – rýchlosť odpovede pre botov a používateľov.
- Referrer – odkazy z rámci webu, SERP, alebo bez referrera (boty často „-”).
- User-Agent – kľúč k identifikácii botov (a spoofingu).
- Edge polia (napr.
cache_status,tls_version,http_version) – súvis s výkonom a dostupnosťou.
Identifikácia botov: viac než len User-Agent
Samotný User-Agent je ľahko falšovateľný. Pre kritické rozhodnutia (napr. úprava crawl rate) vždy vykonajte IP reverzné DNS overenie a forward DNS validáciu pre oficiálne rozsahy (tzv. „double DNS check”). Vytvorte si kategórie:
- Googlebot (smartphone/desktop, obrázky, AdsBot) – zásadne pre indexáciu.
- Bingbot, Applebot, Yandex/Semrush/MJ12 a ďalšie – dôležité podľa trhu.
- LLM/AI crawling – nové kategórie botov zbierajúce dáta pre odpovede AI; zvážte pravidlá a hodnotu crawl-u.
- Neznáme/škodlivé – throttling, blocklist, honeypot monitorovanie.
Crawl budget: ako ho merať a riadiť z logov
- Distribúcia hitov podľa hlbokosti URL (napr. počet lomítok alebo interná metrika „depth”) – nadmerné prehľadávanie hlbokých nepodstatných stránok je signál na úpravu navigácie, robots.txt alebo parameter handlingu.
- Recrawl frekvencia (median/mean dní medzi hitmi) – hlavné stránky by mali mať kratší interval.
- Podiel 2xx vs. 3xx/4xx/5xx pri botoch – chybové kódy vyčerpávajú budget a spomaľujú indexáciu.
- Požiadavky na statické zdroje (CSS/JS) od botov – 4xx/403 tu často znamená neúplné renderovanie a chýbajúce pochopenie obsahu.
Diagnostika indexačných problémov cez logy
- Orphan stránky: URL s bot hitmi, ktoré chýbajú v internom prelinkovaní alebo v navigácii – často prítomné len v sitemap/externých odkazoch.
- Zombie stránky: nízka návštevnosť používateľov, vysoká crawl aktivita – kandidáti na konsolidáciu/kanonikalizáciu.
- Soft 404: opakované 200 s veľmi nízkymi bajtami alebo s jednotným „prázdnym” template – bot míňa budget bez hodnoty.
- Redirect reťazce a slučky: viacnásobné 3xx po sebe – zbytočná latencia a riziko straty signálu.
- Nesúlad robots.txt vs. realita: bot opakovane skúša disallowované cesty (4xx/403) – zvážte prečo sú preň atraktívne.
- Canonical/hreflang anomálie: ak bot často navštevuje parametrové varianty, kanonikalizácia nemusí byť rešpektovaná alebo je neskoro renderovaná.
Workflow: od zberu po insighty
- Zber: zabezpečte prístup k všetkým relevantným logom (edge + origin), vrátane nočných rotácií a kompresie (gzip).
- Normalizácia: zjednoťte časové pásma (preferujte UTC), formát URL (case, trailing slash), rozbalte
gzip, deduplikujte podľa request ID, ošetrite chýbajúce polia. - Obohatenie: pridajte interné metadáta (typ stránky, kategória, šablóna, sitemap inclusion, počet interných odkazov, priorita).
- Uloženie: kolumnárne dátové úložisko (napr. BigQuery/ClickHouse/Redshift) pre lacné skeny; alebo ELK stack pre rýchle ad-hoc dotazy.
- Analýza: pripravte štandardné dopyty a dashboardy (viď nižšie).
- Akcia: navrhnite zmeny (navigácia, interné odkazy, robots, preusporiadanie sitemap, konsolidácia parametrov, caching politiky), potom merajte dopad.
Štandardné dopyty (pseudokód) pre SEO tímy
- Top 404 navštívené Googlebotom (posledných 30 dní):
SELECT url, COUNT(*) AS hits FROM logs WHERE bot='googlebot' AND status BETWEEN 400 AND 499 AND ts >= NOW()-30d GROUP BY url ORDER BY hits DESC - Stránky bez bot hitov:
SELECT url FROM sitemap LEFT JOIN (SELECT DISTINCT url FROM logs WHERE bot) USING(url) WHERE logs.url IS NULL - Redirect reťazce:
SELECT req_id, ARRAY_AGG(CONCAT(status,'→',location)) FROM logs WHERE status BETWEEN 300 AND 399 GROUP BY req_id HAVING COUNT(*) > 1 - Soft 404 kandidáti:
SELECT url FROM logs WHERE status=200 GROUP BY url HAVING AVG(bytes) <= 2k AND COUNT(*) >= 10 - Recrawl interval:
SELECT url, PERCENTILE_DIFF('day', LAG(ts) OVER(PARTITION BY url ORDER BY ts), ts) AS p50 FROM logs WHERE bot - Render blokujúce zdroje:
SELECT resource_url FROM logs WHERE bot AND resource_type IN ('css','js') AND status IN (403,404,5xx)
Metodika merania: KPI a prahy
| KPI | Popis | Cieľ/interpretácia |
|---|---|---|
| Podiel 2xx pri botoch | % úspešných odpovedí na bot hity | > 95% pre kľúčové sekcie |
| Priemerný recrawl interval | Dni medzi bot návštevami URL | Nižší pri kľúčových stránkach |
| 404/410 pomer | Chyby na existujúcich/odstránených URL | Minimalizovať, pri starom obsahu preferovať 410 |
| Redirect hop count | Počet presmerovaní | ≤ 1 hop (ideálne priamy cieľ) |
| TTFB pre botov | Čas do prvého bajtu | Stabilne nízky, konzistentný s Core Web Vitals |
| Crawl koncentrácia | % hitov na top X% URL | Vyvážený rozptyl vs. priority obsahu |
Praktické použitie v AIO/AEO a pre LLM
- Asistenčné odpovede: logy odhalia, či boty LLM získajú prístup k štruktúrovaným dátam (FAQ/HowTo/JSON-LD) a statickým assetom potrebným na pochopenie rozloženia a jazykovej verzie.
- Kontrola robots pravidiel: pri zakázaní kritických ciest (napr.
/cdn/,/api/content) riskujete neúplné pochopenie obsahu AI systémami. - Verzionovanie obsahu: sledujte, či sa recrawl po aktualizácii zrýchlil (dôkaz, že zmeny boli „spozorované”).
Parametre a nekonečné priestory
Parametre typu ?sort=, ?page=, ?utm= alebo nekonečné generátory URL (filtrovacie kombinácie) sú častým zdrojom plýtvajúceho crawl budgetu. Z logov vyčítate:
- Aké parametre bot navštevuje najčastejšie a s akými kódmi.
- Či parametre vedú na kanonické, indexovateľné verzie.
- Či je potrebné nastaviť parameter handling, prelinkovanie alebo blokovanie vybraných parametrov.
Mobilné vs. desktop boty a renderovanie
Mobile-first indexácia znamená, že smartphone bot je rozhodujúci. Porovnávajte rovnaké URL medzi mobilným a desktopovým botom: rozdiely v 4xx/403 na CSS/JS/fontoch odhalia, prečo obsah nie je správne rozpoznaný alebo je považovaný za „tenký”. Sledujte aj HTTP/2/3 využitie a prioritu zdrojov, ktoré môžu zlepšiť latenciu.
Prepojenie logov s internou mapou webu
- Sitemap dif: URL v sitemap bez bot hitu = kandidát na prelinkovanie alebo kontrolu indexačných signálov.
- Interné odkazy: korelujte počet interných odkazov s frekvenciou bot hitov – nízky link equity často znamená zriedkavejší recrawl.
- Kategórie/šablóny: skupinová analýza podľa typov stránok odhalí problémové sekcie (napr. archívy, parametre, duplicitné tagy).
Edge a CDN: cache a dostupnosť pre botov
- Cache hit rate: vysoký hit rate pre opakovane prehľadávané zdroje (CSS/JS) šetrí TTFB a kapacitu originu.
- HTTP 429/5xx mitigácie: pri agresívnom zásahu WAF môže bot dostať 403/429 – zbytočne prídete o crawl.
- Geo a PoP rozptyl: vysoká latencia z vybraných lokalít môže ovplyvniť hodnotenie rýchlosti.
Bezpečnosť, súkromie a compliance
- Anonymizácia IP: pri dlhodobom uchovávaní používateľských logov dodržujte GDPR (maskovanie, skrátenie IP).
- Retenčná politika: držte len tak dlho, ako je nevyhnutné; pre SEO často stačí 90–180 dní detailu + agregáty.
- Least privilege: prístup k surovým logom len pre poverené osoby; audit trail nad exportmi.
Nástroje a technický stack
- Rýchla explorácia: grep/awk, GoAccess pre základné prehľady.
- Vizualizácia a ad-hoc dotazy: ELK stack (Elasticsearch, Logstash, Kibana), Grafana.
- Big data/SQL: BigQuery, Snowflake, ClickHouse pre lacné agregácie na TB dát.
- Programová analýza: Python/R pre štatistiky a detekcie (soft 404, reťazce presmerovaní, recrawl intervaly).
Časté chyby pri log analýze pre SEO
- Nesúlad časových zón: miešanie UTC a lokálneho času vedie k falošným sezónnym záverom.
- Sampling: analýza na vzorke bez rovnomerného rozptylu skresľuje recrawl frekvencie.
- Ignorovanie CDN logov: mnohé requesty sa nikdy nedostanú na origin; chýba vám polovica obrazu.
- Neoverená identita botov: spoliehanie sa len na User-Agent.
- Nenormalizované URL: rozdiely v trailing slash, case, či zakódovaní vedú k duplicitám.
- Pozemské omyly: zabudnuté interné 301/302 po migrácii, ktoré mesiace spaľujú crawl budget.
Migrácie a logy: ako znížiť riziko
- Pred go-live: simulujte crawl (staging) a pripravte mapu staré→nové URL; testujte presmerovania.
- Po go-live: denná kontrola 404 a dĺžky reťazcov 3xx; monitorujte rýchlosť recrawlu kľúčových sekcií.
- Sitemapy: priebežné aktualizácie a rozdelenie podľa sekcií pre lepší tracking.
Prípadové „mini” scenáre a akčné kroky
- Bot trávi 40% času na /filter/ stránkach → upraviť interné prelinkovanie, nastaviť kanonickú URL, zvážiť disallow pre vybrané parametre, preusporiadať sitemap.
- Rast 5xx pri statických zdrojoch → zvýšiť cache TTL na edge, rozložiť traffic, opraviť generovanie assetov.
- Vysoký podiel 302 → nahradiť trvalými 301, skrátiť reťazce, aktualizovať interné odkazy na konečné URL.
- Smartphone bot dostáva 403 na /assets/ → uvoľniť prístup pre Googlebot k statickým súborom, skontrolovať WAF pravidlá.
Reportovanie: čo má vidieť stakeholder
- Trend bot 2xx%, 404 count, TTFB (p50/p95) a recrawl interval pre top sekcie.
- Top problémové URL (404/soft 404/redirect chains) s priradenou prioritou a odporúčaním riešenia.
- Mapa crawl vs. index (ak máte dáta z konzol) a prelinkovanie.
Zhrnutie
Log analýza je fundamentálny nástroj pre SEO, AIO/AEO a optimalizáciu pre LLM: odhaľuje, čo sa na webe skutočne deje z pohľadu prehľadávačov. Správnym zberom, normalizáciou a analýzou logov viete riadiť crawl budget, znižovať chyby, skracovať presmerovania, odhaľovať orphan/zombie stránky a urýchľovať recrawl po zmenách. Priamo tak zvyšujete indexačnú spoľahlivosť, kvalitu odpovedí v AI asistentoch a celkovú organickú viditeľnosť.