Čo je log analýza a prečo je kritická pre technické SEO
Log analýza je systematické štúdium surových záznamov webového servera, CDN alebo reverzného proxy. Cieľom je pochopiť, ako sa reálne správa vyhľadávací crawler, aké URL navštevuje, s akou frekvenciou, aký status kód vraciame a aké sú výkonnostné charakteristiky odpovedí. Na rozdiel od nástrojov tretích strán a crawlerov logy zobrazujú skutočný dopyt a skutočnú odozvu – bez odhadov a vzoriek na strane prehliadača.
Typy logov a kde ich získať
- Webserver logy: Apache, Nginx, IIS (access/error logy).
- CDN logy: Cloudflare, Akamai, Fastly – obsahujú aj cache hity/missy a bezpečnostné atribúty.
- Proxy/WAF logy: reverse proxy, load balancer, firewall – dôležité pre blokovania/capchy.
- Aplikačné logy: rámcové „request logs“ s business ID, ktoré umožnia párovanie s CMS.
Ideálne je zlúčiť zdroje (server + CDN), aby ste videli celú cestu požiadavky (edge → origin) a vedeli rozlíšiť cache hity, limitácie, presmerovania a retry správanie.
Formáty a polia: čo potrebujete vidieť v každom riadku
Najčastejšie sa stretnete s Combined/Custom Log Format alebo JSON. Kľúčové polia pre SEO a výkon:
- Časová pečiatka (UTC, sekundová presnosť) – korelácia s deployom a anomáliami.
- Metóda (GET/HEAD) a verzia protokolu (HTTP/2, HTTP/3) – dopad na paralelizmus a latenciu.
- URL (plná cesta + query string) – rozlišovanie kanonických a parameterizovaných stránok.
- Status kód (2xx/3xx/4xx/5xx) – zdravie webu a prekážky indexácie.
- Odozvový čas (TTFB, upstream time) – výkon originu vs. edge.
- Bytová veľkosť (response size) – dopad na crawl, prenosy a spotrebu zdrojov.
- User-Agent – identifikácia crawlerov a prehliadačov.
- IP/ASN – overenie pravosti botov (napr. Googlebot z AS15169).
- Cache status (HIT/MISS/BYPASS/STALE) – koľko servuje CDN vs. origin.
- Referer – užitočné pri odhaľovaní interných slučiek a redirect reťazcov.
Bezpečnosť a súlad: anonymizácia, retenčná politika, prístupové práva
Pri prenose logov do analytických nástrojov minimalizujte osobné údaje (maskovanie IP, skracovanie query parametrov s PII). Nastavte retenciu podľa firemných pravidiel (napr. 90–180 dní pre SEO), read-only prístup pre analytikov a verziujte parsovacie schémy.
Ingest a spracovanie: od surových logov po dotazovateľné dáta
- Ingest: S3/GCS ako „landing zone“, následne ETL do dátového skladu (BigQuery/Snowflake/ClickHouse).
- Parsing: definujte schému polí; pre JSON preferujte explicitné kľúče pred regexmi.
- Normalizácia URL: lowercase cesty, odstránenie trailing slasha, sort parametrov, whitelist dôležitých parametrov.
- Bot klasifikácia: tabuľka známych UA + validácia reverzným DNS a ASN; označte „suspect“ hity.
- Sessionizácia crawlera: zoskupenie podľa bot-ID (IP+UA), 5-min okná pre sekvenčné analýzy.
Overenie pravosti botov: ako nerozhodiť analýzu falošnými UA
- Reverse DNS a forward-confirmation: pre Googlebot vyžadujte PTR končiace na googlebot.com alebo google.com a následný A záznam späť na tú istú IP.
- ASN kontrola: porovnajte proti známej autonómnej sieti poskytovateľa (napr. AS15169 pre Google).
- Heuristika správania: reálni boti rešpektujú robots.txt, nie sú agresívne paralelní a používajú HEAD.
Kľúčové otázky, na ktoré logy dávajú odpoveď
- Ktoré URL sú reálne crawlované a ako často (podľa sekcií, hlbky a typu obsahu)?
- Kde míňame crawl budget na nízkohodnotových stránkach (parametre, kalendáre, nekonečné listingy)?
- Aké prekážky indexácie existujú (4xx, 5xx, 429, dlhé TTFB, redirect reťazce)?
- Respektujú boti canonical a hreflang alebo opakovane chodia na duplicity?
- Aký je reálny dopad deployov na dostupnosť a crawl frekvenciu?
SEO metriky z logov: čo merať a ako interpretovať
| Metrika | Popis | Prečo záleží | Typický cieľ |
|---|---|---|---|
| Crawl coverage | % indexovateľných URL, ktoré bot navštívil aspoň raz v období | Ukazuje nepokryté clustre a „siroty“ | > 90 % pre kľúčové huby |
| Crawl frequency | Počet hitov na URL/sekciu za deň/týždeň | Signalizuje dôležitosť v očiach vyhľadávača | Stabilná alebo rastúca |
| Status mix | Podiel 2xx/3xx/4xx/5xx/429 | Odhaľuje technické prekážky | < 1 % 5xx, < 2 % 4xx na indexovateľných |
| Redirect depth | Priemerný počet presmerovaní na požiadavku | Každý hop plytvá budget a latenciou | ≤ 1, žiadne reťazce |
| TTFB p95 (bot traffic) | 95. percentil času do prvého bajtu | Výkon originu pre HTML dokumenty | < 500 ms na kľúčových huboch |
| Cache hit ratio | Podiel HIT z CDN na HTML a statikách | Nižší tlak na origin a rýchlosť | > 80 % pre statiky, selektívne pre HTML |
| Parametrická entropia | Počet unikátnych query kombinácií na cestu | Deteguje URL explóziu a duplicity | Minimalizovať na whitelisted parametre |
Analytické pohľady: od rýchlych výhier po hlboké zistenia
- Mapa crawl-cesty: sekvenčná analýza hitov bota od vstupnej URL, odhaľuje interné smerovanie a zacyklenia.
- „Wasted crawl“ report: hity na noindex, 404, nekonečné parametre, staging subdomény.
- „Freshness“ profil: ako rýchlo po zmene (deploy, nový obsah) boti recrawlujú dotknuté URL.
- „Heavy page“ zoznam: HTML s veľkosťou nad prahom (napr. 300 kB) alebo s p95 TTFB vysoko nad cieľom.
- Redirect reťazce v čase: dočasné reťazce po migrácii, ktoré neboli odstránené.
- Mobile vs. desktop bot: rozdiely v pokrytí pri Mobile-First Index; prioritizujte mobilné HTML.
Vplyv na indexáciu a crawl budget: praktické zásahy
- Blokujte nízkohodnotové vzory (robots.txt/HTTP 410/rule-based) pre nekonečné filtre a internejšie vyhľadávania.
- Stabilizujte kanonickú hierarchiu (jedna indexovateľná cesta), presmerujte „duplicitné“ variácie.
- Zrýchlite HTML dokumenty (kešovanie na edge, predrender, optimalizácia DB) – rýchlejší TTFB = efektívnejší crawl.
- Opravte 404/5xx hotspoty podľa sekcií; znížite negatívny signál spoľahlivosti.
- Obmedzte redirect hop-y na max. 1; po migrácii konsolidujte do priamych 301.
Výkon a infra: čo z logov vyčítate pre DevOps
- Špičky zaťaženia podľa hodín a geolokácie – kapacitné plánovanie a autoscaling.
- HTTP/2/3 adoption – ovplyvňuje paralelizmus a latenciu, najmä na CDN edge.
- Cache-kontrola (Cache-Control, ETag, Last-Modified) – overte, či CDN môže efektívne cachovať.
- Upstream time vs. request time – presná lokalizácia latencií (aplikácia vs. sieť).
Nástrojový ekosystém: od desktopu po dátové sklady
- Desktop/komerčné: Screaming Frog Log File Analyser, Botify/Oncrawl/ContentKing (log konektory).
- Open-source stack: Logstash/Fluentd → ClickHouse/BigQuery → Metabase/Superset/Grafana.
- Cloudové logy CDN: export do S3/GCS s rotačnou politikou a schema-evolution.
Postup práce: rámec hypotéza → dôkaz → zásah → meranie
- Hypotéza: „Bot míňa budget na parametrických listingoch“.
- Dôkaz z logov: vysoká frekvencia GET s rôznymi query, nízka návštevnosť HTML bez indexačnej hodnoty.
- Zásah: pravidlá robots.txt pre konkrétne parametre + interné odkazy smerovať na kanonické URL.
- Meranie: do 7–14 dní pokles hitov na nehodnotné URL, rast pokrytia na huboch.
Reporty, ktoré by nemali chýbať na mesačnej báze
- Top 100 najčastejšie crawlovaných URL a ich status/TTFB vývoj.
- URL bez návštev od bota > 60 dní z indexovateľnej sitemap.
- Wasted crawl (noindex, 404, 5xx, duplicitné parametre) a trend po zásahoch.
- Redirect reťazce nad 1 hop; TOP vstupné a výstupné uzly.
- CDN cache ratio a pôvod latencií (edge vs. origin).
Špeciálne prípady: JS render, SPA a dynamické stránky
- HTML vs. JSON/API hity: ak crawler často žiada API, prehodnoťte server-side render (SSR) alebo hydratačnú stratégiu.
- Pre-render/edge-side includes: z logov sledujte, či HTML vzniká rýchlo a stabilne pri mobile UA.
- Sitemapy a ich čítanie: bot by mal pravidelne žiadať sitemap.xml; ak nie, skontrolujte odkaz v robots.txt.
Kontrolný zoznam pred nasadením zmien
- Validované pravidlá robots.txt na stagingu, simulácia cez HEAD/GET a diff trafiku.
- Pri migrácii definované 1:1 mapovanie URL a monitor reťazcov 301.
- Po deploy spustený „smoke test“: status mix, TTFB p95, 5xx alarmy.
- Aktualizované kanonické značky a interné linky smerujúce na finálne URL.
Najčastejšie chyby pri log analýze
- Spoliehanie sa iba na UA reťazec bez DNS/ASN verifikácie – vedie k nafúknutým číslam botov.
- Nenormalizované URL – ten istý zdroj v analýze figuruje ako viac entít.
- Zamieňanie edge a origin časov – nesprávne závery o výkone aplikácie.
- Chýbajúca segmentácia (mobile/desktop bot, typ stránky) – priemer skrýva problémové clustre.
- Krátka retenčná doba – nevidíte sezónnosť ani dlhé recrawl cykly.
Implementačný plán na 30–60–90 dní
- Days 1–30: prístup k logom, schéma, normalizácia URL, bot verifikácia, základné reporty (status mix, coverage).
- Days 31–60: wasted crawl zásahy, redirect cleanup, cache-policy tuning, monitoring p95 TTFB.
- Days 61–90: hlboká segmentácia podľa sekcií, SPA/SSR audit, automatizácia dashboardov a alertov.
Výstupy pre stakeholderov: čo komu ukázať
- SEO tím: coverage, wasted crawl, re-crawl po zmenách obsahu.
- DevOps: p95 TTFB podľa služby, cache ratio, špičky a 5xx korelácie s releasmi.
- Produkt: parametre/listingy generujúce URL explóziu, návrh obmedzení filtrov.
- Manažment: trend dostupnosti, riziká migrácií, dopad na organický výkon.
Zhrnutie: logy ako zdroj pravdy
Log analýza odkrýva, ako naozaj prechádzajú boti váš web a čo ich brzdí. Umožňuje šetriť crawl budget, zrýchliť HTML, konsolidovať URL pri migráciách a presne merať dopad zmien. Kto logy nečíta, optimalizuje „naslepo“. Zaveďte disciplinovaný ingest, robustnú normalizáciu a pravidelný reporting – a premeňte logy na konkurenčnú výhodu v technickom SEO aj výkone.