Log analýza

Log analýza

Log analýza: prepojenie serverových logov so SEO, AIO/AEO a optimalizáciou pre LLM

Log analýza je systematické vyhodnocovanie „surových” záznamov o návštevách a požiadavkách na server (HTTP(S) požiadavky a odpovede). V modernom SEO a AIO/AEO (Answer/AI Engine Optimization) predstavujú logy najpresnejší zdroj pravdy o tom, čo reálne prehľadávač (Googlebot, Bingbot, iní botovia, crawleri LLM) videl, ako často sa k obsahu vracia, ktoré súbory si vyžiadal, aké kódy odpovedí dostal a ako rýchlo mu server odpovedal. Na rozdiel od JavaScriptom meranej analytiky (ktorú boty typicky nespúšťajú) logy zachytávajú každý request – vrátane zdrojov, API a chránených či blokovaných ciest. Preto sú kľúčom k efektívnemu manažmentu crawl budgetu, diagnostike indexačných problémov a k zlepšeniu kvality odpovedí generovaných AI systémami.

Čo presne je „serverový log” a kde vzniká

  • Webserver a reverzný proxy: Apache, Nginx, IIS alebo HAProxy/Envoy zachytávajú vstupné HTTP požiadavky ešte pred aplikáciou.
  • CDN/WAF edge logy: Cloudové hraničné uzly (CDN, WAF) obsahujú dodatočné metadáta (cache hit/miss, geolokácia, mitigácie).
  • Aplikačné logy: rámce (napr. PHP/Nette, Node.js, Python) dopĺňajú korelačné ID, latenciu, výnimky, interné presmerovania.
  • Databázové/logy vyhľadávania: menej často priamo SEO, ale užitočné pri korelácii výkonnosti.

Formáty a polia: čo potrebujeme vidieť pre SEO

Najčastejšie sa stretnete s Common Log Format (CLF), Combined Log Format (pridáva referrer, user-agent) a čoraz častejšie s JSON logmi. Kľúčové polia pre SEO:

  • Čas (timestamp, časová zóna) – nevyhnutný pre frekvenciu prehľadávania a recrawl kadenciu.
  • Metóda (GET, HEAD) – HEAD požiadavky botov sú bežné pri overovaní.
  • URL (path + query) – vrátane parametrov; umožní identifikovať nekonečné priestory a duplicity.
  • Status kód (2xx, 3xx, 4xx, 5xx) – pre technickú kondíciu a signály indexácie.
  • Bytová veľkosť (response bytes) – náznak „soft 404” alebo render blokujúcich chýb.
  • Latency/TTFB – rýchlosť odpovede pre botov a používateľov.
  • Referrer – odkazy z rámci webu, SERP, alebo bez referrera (boty často „-”).
  • User-Agent – kľúč k identifikácii botov (a spoofingu).
  • Edge polia (napr. cache_status, tls_version, http_version) – súvis s výkonom a dostupnosťou.

Identifikácia botov: viac než len User-Agent

Samotný User-Agent je ľahko falšovateľný. Pre kritické rozhodnutia (napr. úprava crawl rate) vždy vykonajte IP reverzné DNS overenie a forward DNS validáciu pre oficiálne rozsahy (tzv. „double DNS check”). Vytvorte si kategórie:

  • Googlebot (smartphone/desktop, obrázky, AdsBot) – zásadne pre indexáciu.
  • Bingbot, Applebot, Yandex/Semrush/MJ12 a ďalšie – dôležité podľa trhu.
  • LLM/AI crawling – nové kategórie botov zbierajúce dáta pre odpovede AI; zvážte pravidlá a hodnotu crawl-u.
  • Neznáme/škodlivé – throttling, blocklist, honeypot monitorovanie.

Crawl budget: ako ho merať a riadiť z logov

  • Distribúcia hitov podľa hlbokosti URL (napr. počet lomítok alebo interná metrika „depth”) – nadmerné prehľadávanie hlbokých nepodstatných stránok je signál na úpravu navigácie, robots.txt alebo parameter handlingu.
  • Recrawl frekvencia (median/mean dní medzi hitmi) – hlavné stránky by mali mať kratší interval.
  • Podiel 2xx vs. 3xx/4xx/5xx pri botoch – chybové kódy vyčerpávajú budget a spomaľujú indexáciu.
  • Požiadavky na statické zdroje (CSS/JS) od botov – 4xx/403 tu často znamená neúplné renderovanie a chýbajúce pochopenie obsahu.

Diagnostika indexačných problémov cez logy

  • Orphan stránky: URL s bot hitmi, ktoré chýbajú v internom prelinkovaní alebo v navigácii – často prítomné len v sitemap/externých odkazoch.
  • Zombie stránky: nízka návštevnosť používateľov, vysoká crawl aktivita – kandidáti na konsolidáciu/kanonikalizáciu.
  • Soft 404: opakované 200 s veľmi nízkymi bajtami alebo s jednotným „prázdnym” template – bot míňa budget bez hodnoty.
  • Redirect reťazce a slučky: viacnásobné 3xx po sebe – zbytočná latencia a riziko straty signálu.
  • Nesúlad robots.txt vs. realita: bot opakovane skúša disallowované cesty (4xx/403) – zvážte prečo sú preň atraktívne.
  • Canonical/hreflang anomálie: ak bot často navštevuje parametrové varianty, kanonikalizácia nemusí byť rešpektovaná alebo je neskoro renderovaná.

Workflow: od zberu po insighty

  1. Zber: zabezpečte prístup k všetkým relevantným logom (edge + origin), vrátane nočných rotácií a kompresie (gzip).
  2. Normalizácia: zjednoťte časové pásma (preferujte UTC), formát URL (case, trailing slash), rozbalte gzip, deduplikujte podľa request ID, ošetrite chýbajúce polia.
  3. Obohatenie: pridajte interné metadáta (typ stránky, kategória, šablóna, sitemap inclusion, počet interných odkazov, priorita).
  4. Uloženie: kolumnárne dátové úložisko (napr. BigQuery/ClickHouse/Redshift) pre lacné skeny; alebo ELK stack pre rýchle ad-hoc dotazy.
  5. Analýza: pripravte štandardné dopyty a dashboardy (viď nižšie).
  6. Akcia: navrhnite zmeny (navigácia, interné odkazy, robots, preusporiadanie sitemap, konsolidácia parametrov, caching politiky), potom merajte dopad.

Štandardné dopyty (pseudokód) pre SEO tímy

  • Top 404 navštívené Googlebotom (posledných 30 dní): SELECT url, COUNT(*) AS hits FROM logs WHERE bot='googlebot' AND status BETWEEN 400 AND 499 AND ts >= NOW()-30d GROUP BY url ORDER BY hits DESC
  • Stránky bez bot hitov: SELECT url FROM sitemap LEFT JOIN (SELECT DISTINCT url FROM logs WHERE bot) USING(url) WHERE logs.url IS NULL
  • Redirect reťazce: SELECT req_id, ARRAY_AGG(CONCAT(status,'→',location)) FROM logs WHERE status BETWEEN 300 AND 399 GROUP BY req_id HAVING COUNT(*) > 1
  • Soft 404 kandidáti: SELECT url FROM logs WHERE status=200 GROUP BY url HAVING AVG(bytes) <= 2k AND COUNT(*) >= 10
  • Recrawl interval: SELECT url, PERCENTILE_DIFF('day', LAG(ts) OVER(PARTITION BY url ORDER BY ts), ts) AS p50 FROM logs WHERE bot
  • Render blokujúce zdroje: SELECT resource_url FROM logs WHERE bot AND resource_type IN ('css','js') AND status IN (403,404,5xx)

Metodika merania: KPI a prahy

KPI Popis Cieľ/interpretácia
Podiel 2xx pri botoch % úspešných odpovedí na bot hity > 95% pre kľúčové sekcie
Priemerný recrawl interval Dni medzi bot návštevami URL Nižší pri kľúčových stránkach
404/410 pomer Chyby na existujúcich/odstránených URL Minimalizovať, pri starom obsahu preferovať 410
Redirect hop count Počet presmerovaní ≤ 1 hop (ideálne priamy cieľ)
TTFB pre botov Čas do prvého bajtu Stabilne nízky, konzistentný s Core Web Vitals
Crawl koncentrácia % hitov na top X% URL Vyvážený rozptyl vs. priority obsahu

Praktické použitie v AIO/AEO a pre LLM

  • Asistenčné odpovede: logy odhalia, či boty LLM získajú prístup k štruktúrovaným dátam (FAQ/HowTo/JSON-LD) a statickým assetom potrebným na pochopenie rozloženia a jazykovej verzie.
  • Kontrola robots pravidiel: pri zakázaní kritických ciest (napr. /cdn/, /api/content) riskujete neúplné pochopenie obsahu AI systémami.
  • Verzionovanie obsahu: sledujte, či sa recrawl po aktualizácii zrýchlil (dôkaz, že zmeny boli „spozorované”).

Parametre a nekonečné priestory

Parametre typu ?sort=, ?page=, ?utm= alebo nekonečné generátory URL (filtrovacie kombinácie) sú častým zdrojom plýtvajúceho crawl budgetu. Z logov vyčítate:

  • Aké parametre bot navštevuje najčastejšie a s akými kódmi.
  • Či parametre vedú na kanonické, indexovateľné verzie.
  • Či je potrebné nastaviť parameter handling, prelinkovanie alebo blokovanie vybraných parametrov.

Mobilné vs. desktop boty a renderovanie

Mobile-first indexácia znamená, že smartphone bot je rozhodujúci. Porovnávajte rovnaké URL medzi mobilným a desktopovým botom: rozdiely v 4xx/403 na CSS/JS/fontoch odhalia, prečo obsah nie je správne rozpoznaný alebo je považovaný za „tenký”. Sledujte aj HTTP/2/3 využitie a prioritu zdrojov, ktoré môžu zlepšiť latenciu.

Prepojenie logov s internou mapou webu

  • Sitemap dif: URL v sitemap bez bot hitu = kandidát na prelinkovanie alebo kontrolu indexačných signálov.
  • Interné odkazy: korelujte počet interných odkazov s frekvenciou bot hitov – nízky link equity často znamená zriedkavejší recrawl.
  • Kategórie/šablóny: skupinová analýza podľa typov stránok odhalí problémové sekcie (napr. archívy, parametre, duplicitné tagy).

Edge a CDN: cache a dostupnosť pre botov

  • Cache hit rate: vysoký hit rate pre opakovane prehľadávané zdroje (CSS/JS) šetrí TTFB a kapacitu originu.
  • HTTP 429/5xx mitigácie: pri agresívnom zásahu WAF môže bot dostať 403/429 – zbytočne prídete o crawl.
  • Geo a PoP rozptyl: vysoká latencia z vybraných lokalít môže ovplyvniť hodnotenie rýchlosti.

Bezpečnosť, súkromie a compliance

  • Anonymizácia IP: pri dlhodobom uchovávaní používateľských logov dodržujte GDPR (maskovanie, skrátenie IP).
  • Retenčná politika: držte len tak dlho, ako je nevyhnutné; pre SEO často stačí 90–180 dní detailu + agregáty.
  • Least privilege: prístup k surovým logom len pre poverené osoby; audit trail nad exportmi.

Nástroje a technický stack

  • Rýchla explorácia: grep/awk, GoAccess pre základné prehľady.
  • Vizualizácia a ad-hoc dotazy: ELK stack (Elasticsearch, Logstash, Kibana), Grafana.
  • Big data/SQL: BigQuery, Snowflake, ClickHouse pre lacné agregácie na TB dát.
  • Programová analýza: Python/R pre štatistiky a detekcie (soft 404, reťazce presmerovaní, recrawl intervaly).

Časté chyby pri log analýze pre SEO

  1. Nesúlad časových zón: miešanie UTC a lokálneho času vedie k falošným sezónnym záverom.
  2. Sampling: analýza na vzorke bez rovnomerného rozptylu skresľuje recrawl frekvencie.
  3. Ignorovanie CDN logov: mnohé requesty sa nikdy nedostanú na origin; chýba vám polovica obrazu.
  4. Neoverená identita botov: spoliehanie sa len na User-Agent.
  5. Nenormalizované URL: rozdiely v trailing slash, case, či zakódovaní vedú k duplicitám.
  6. Pozemské omyly: zabudnuté interné 301/302 po migrácii, ktoré mesiace spaľujú crawl budget.

Migrácie a logy: ako znížiť riziko

  • Pred go-live: simulujte crawl (staging) a pripravte mapu staré→nové URL; testujte presmerovania.
  • Po go-live: denná kontrola 404 a dĺžky reťazcov 3xx; monitorujte rýchlosť recrawlu kľúčových sekcií.
  • Sitemapy: priebežné aktualizácie a rozdelenie podľa sekcií pre lepší tracking.

Prípadové „mini” scenáre a akčné kroky

  • Bot trávi 40% času na /filter/ stránkach → upraviť interné prelinkovanie, nastaviť kanonickú URL, zvážiť disallow pre vybrané parametre, preusporiadať sitemap.
  • Rast 5xx pri statických zdrojoch → zvýšiť cache TTL na edge, rozložiť traffic, opraviť generovanie assetov.
  • Vysoký podiel 302 → nahradiť trvalými 301, skrátiť reťazce, aktualizovať interné odkazy na konečné URL.
  • Smartphone bot dostáva 403 na /assets/ → uvoľniť prístup pre Googlebot k statickým súborom, skontrolovať WAF pravidlá.

Reportovanie: čo má vidieť stakeholder

  • Trend bot 2xx%, 404 count, TTFB (p50/p95) a recrawl interval pre top sekcie.
  • Top problémové URL (404/soft 404/redirect chains) s priradenou prioritou a odporúčaním riešenia.
  • Mapa crawl vs. index (ak máte dáta z konzol) a prelinkovanie.

Zhrnutie

Log analýza je fundamentálny nástroj pre SEO, AIO/AEO a optimalizáciu pre LLM: odhaľuje, čo sa na webe skutočne deje z pohľadu prehľadávačov. Správnym zberom, normalizáciou a analýzou logov viete riadiť crawl budget, znižovať chyby, skracovať presmerovania, odhaľovať orphan/zombie stránky a urýchľovať recrawl po zmenách. Priamo tak zvyšujete indexačnú spoľahlivosť, kvalitu odpovedí v AI asistentoch a celkovú organickú viditeľnosť.

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *