Log analýza SEO – Ekonomická encyklopédia

Čo je log analýza a prečo je kritická pre technické SEO

Log analýza je systematické štúdium surových záznamov webového servera, CDN alebo reverzného proxy. Cieľom je pochopiť, ako sa reálne správa vyhľadávací crawler, aké URL navštevuje, s akou frekvenciou, aký status kód vraciame a aké sú výkonnostné charakteristiky odpovedí. Na rozdiel od nástrojov tretích strán a crawlerov logy zobrazujú skutočný dopyt a skutočnú odozvu – bez odhadov a vzoriek na strane prehliadača.

Typy logov a kde ich získať

Webserver logy: Apache, Nginx, IIS (access/error logy).
CDN logy: Cloudflare, Akamai, Fastly – obsahujú aj cache hity/missy a bezpečnostné atribúty.
Proxy/WAF logy: reverse proxy, load balancer, firewall – dôležité pre blokovania/capchy.
Aplikačné logy: rámcové „request logs“ s business ID, ktoré umožnia párovanie s CMS.

Ideálne je zlúčiť zdroje (server + CDN), aby ste videli celú cestu požiadavky (edge → origin) a vedeli rozlíšiť cache hity, limitácie, presmerovania a retry správanie.

Formáty a polia: čo potrebujete vidieť v každom riadku

Najčastejšie sa stretnete s Combined/Custom Log Format alebo JSON. Kľúčové polia pre SEO a výkon:

Časová pečiatka (UTC, sekundová presnosť) – korelácia s deployom a anomáliami.
Metóda (GET/HEAD) a verzia protokolu (HTTP/2, HTTP/3) – dopad na paralelizmus a latenciu.
URL (plná cesta + query string) – rozlišovanie kanonických a parameterizovaných stránok.
Status kód (2xx/3xx/4xx/5xx) – zdravie webu a prekážky indexácie.
Odozvový čas (TTFB, upstream time) – výkon originu vs. edge.
Bytová veľkosť (response size) – dopad na crawl, prenosy a spotrebu zdrojov.
User-Agent – identifikácia crawlerov a prehliadačov.
IP/ASN – overenie pravosti botov (napr. Googlebot z AS15169).
Cache status (HIT/MISS/BYPASS/STALE) – koľko servuje CDN vs. origin.
Referer – užitočné pri odhaľovaní interných slučiek a redirect reťazcov.

Bezpečnosť a súlad: anonymizácia, retenčná politika, prístupové práva

Pri prenose logov do analytických nástrojov minimalizujte osobné údaje (maskovanie IP, skracovanie query parametrov s PII). Nastavte retenciu podľa firemných pravidiel (napr. 90–180 dní pre SEO), read-only prístup pre analytikov a verziujte parsovacie schémy.

Ingest a spracovanie: od surových logov po dotazovateľné dáta

Ingest: S3/GCS ako „landing zone“, následne ETL do dátového skladu (BigQuery/Snowflake/ClickHouse).
Parsing: definujte schému polí; pre JSON preferujte explicitné kľúče pred regexmi.
Normalizácia URL: lowercase cesty, odstránenie trailing slasha, sort parametrov, whitelist dôležitých parametrov.
Bot klasifikácia: tabuľka známych UA + validácia reverzným DNS a ASN; označte „suspect“ hity.
Sessionizácia crawlera: zoskupenie podľa bot-ID (IP+UA), 5-min okná pre sekvenčné analýzy.

Overenie pravosti botov: ako nerozhodiť analýzu falošnými UA

Reverse DNS a forward-confirmation: pre Googlebot vyžadujte PTR končiace na googlebot.com alebo google.com a následný A záznam späť na tú istú IP.
ASN kontrola: porovnajte proti známej autonómnej sieti poskytovateľa (napr. AS15169 pre Google).
Heuristika správania: reálni boti rešpektujú robots.txt, nie sú agresívne paralelní a používajú HEAD.

Kľúčové otázky, na ktoré logy dávajú odpoveď

Ktoré URL sú reálne crawlované a ako často (podľa sekcií, hlbky a typu obsahu)?
Kde míňame crawl budget na nízkohodnotových stránkach (parametre, kalendáre, nekonečné listingy)?
Aké prekážky indexácie existujú (4xx, 5xx, 429, dlhé TTFB, redirect reťazce)?
Respektujú boti canonical a hreflang alebo opakovane chodia na duplicity?
Aký je reálny dopad deployov na dostupnosť a crawl frekvenciu?

SEO metriky z logov: čo merať a ako interpretovať

Metrika	Popis	Prečo záleží	Typický cieľ
Crawl coverage	% indexovateľných URL, ktoré bot navštívil aspoň raz v období	Ukazuje nepokryté clustre a „siroty“	> 90 % pre kľúčové huby
Crawl frequency	Počet hitov na URL/sekciu za deň/týždeň	Signalizuje dôležitosť v očiach vyhľadávača	Stabilná alebo rastúca
Status mix	Podiel 2xx/3xx/4xx/5xx/429	Odhaľuje technické prekážky	< 1 % 5xx, < 2 % 4xx na indexovateľných
Redirect depth	Priemerný počet presmerovaní na požiadavku	Každý hop plytvá budget a latenciou	≤ 1, žiadne reťazce
TTFB p95 (bot traffic)	95. percentil času do prvého bajtu	Výkon originu pre HTML dokumenty	< 500 ms na kľúčových huboch
Cache hit ratio	Podiel HIT z CDN na HTML a statikách	Nižší tlak na origin a rýchlosť	> 80 % pre statiky, selektívne pre HTML
Parametrická entropia	Počet unikátnych query kombinácií na cestu	Deteguje URL explóziu a duplicity	Minimalizovať na whitelisted parametre

Analytické pohľady: od rýchlych výhier po hlboké zistenia

Mapa crawl-cesty: sekvenčná analýza hitov bota od vstupnej URL, odhaľuje interné smerovanie a zacyklenia.
„Wasted crawl“ report: hity na noindex, 404, nekonečné parametre, staging subdomény.
„Freshness“ profil: ako rýchlo po zmene (deploy, nový obsah) boti recrawlujú dotknuté URL.
„Heavy page“ zoznam: HTML s veľkosťou nad prahom (napr. 300 kB) alebo s p95 TTFB vysoko nad cieľom.
Redirect reťazce v čase: dočasné reťazce po migrácii, ktoré neboli odstránené.
Mobile vs. desktop bot: rozdiely v pokrytí pri Mobile-First Index; prioritizujte mobilné HTML.

Vplyv na indexáciu a crawl budget: praktické zásahy

Blokujte nízkohodnotové vzory (robots.txt/HTTP 410/rule-based) pre nekonečné filtre a internejšie vyhľadávania.
Stabilizujte kanonickú hierarchiu (jedna indexovateľná cesta), presmerujte „duplicitné“ variácie.
Zrýchlite HTML dokumenty (kešovanie na edge, predrender, optimalizácia DB) – rýchlejší TTFB = efektívnejší crawl.
Opravte 404/5xx hotspoty podľa sekcií; znížite negatívny signál spoľahlivosti.
Obmedzte redirect hop-y na max. 1; po migrácii konsolidujte do priamych 301.

Výkon a infra: čo z logov vyčítate pre DevOps

Špičky zaťaženia podľa hodín a geolokácie – kapacitné plánovanie a autoscaling.
HTTP/2/3 adoption – ovplyvňuje paralelizmus a latenciu, najmä na CDN edge.
Cache-kontrola (Cache-Control, ETag, Last-Modified) – overte, či CDN môže efektívne cachovať.
Upstream time vs. request time – presná lokalizácia latencií (aplikácia vs. sieť).

Nástrojový ekosystém: od desktopu po dátové sklady

Desktop/komerčné: Screaming Frog Log File Analyser, Botify/Oncrawl/ContentKing (log konektory).
Open-source stack: Logstash/Fluentd → ClickHouse/BigQuery → Metabase/Superset/Grafana.
Cloudové logy CDN: export do S3/GCS s rotačnou politikou a schema-evolution.

Postup práce: rámec hypotéza → dôkaz → zásah → meranie

Hypotéza: „Bot míňa budget na parametrických listingoch“.
Dôkaz z logov: vysoká frekvencia GET s rôznymi query, nízka návštevnosť HTML bez indexačnej hodnoty.
Zásah: pravidlá robots.txt pre konkrétne parametre + interné odkazy smerovať na kanonické URL.
Meranie: do 7–14 dní pokles hitov na nehodnotné URL, rast pokrytia na huboch.

Reporty, ktoré by nemali chýbať na mesačnej báze

Top 100 najčastejšie crawlovaných URL a ich status/TTFB vývoj.
URL bez návštev od bota > 60 dní z indexovateľnej sitemap.
Wasted crawl (noindex, 404, 5xx, duplicitné parametre) a trend po zásahoch.
Redirect reťazce nad 1 hop; TOP vstupné a výstupné uzly.
CDN cache ratio a pôvod latencií (edge vs. origin).

Špeciálne prípady: JS render, SPA a dynamické stránky

HTML vs. JSON/API hity: ak crawler často žiada API, prehodnoťte server-side render (SSR) alebo hydratačnú stratégiu.
Pre-render/edge-side includes: z logov sledujte, či HTML vzniká rýchlo a stabilne pri mobile UA.
Sitemapy a ich čítanie: bot by mal pravidelne žiadať sitemap.xml; ak nie, skontrolujte odkaz v robots.txt.

Kontrolný zoznam pred nasadením zmien

Validované pravidlá robots.txt na stagingu, simulácia cez HEAD/GET a diff trafiku.
Pri migrácii definované 1:1 mapovanie URL a monitor reťazcov 301.
Po deploy spustený „smoke test“: status mix, TTFB p95, 5xx alarmy.
Aktualizované kanonické značky a interné linky smerujúce na finálne URL.

Najčastejšie chyby pri log analýze

Spoliehanie sa iba na UA reťazec bez DNS/ASN verifikácie – vedie k nafúknutým číslam botov.
Nenormalizované URL – ten istý zdroj v analýze figuruje ako viac entít.
Zamieňanie edge a origin časov – nesprávne závery o výkone aplikácie.
Chýbajúca segmentácia (mobile/desktop bot, typ stránky) – priemer skrýva problémové clustre.
Krátka retenčná doba – nevidíte sezónnosť ani dlhé recrawl cykly.

Implementačný plán na 30–60–90 dní

Days 1–30: prístup k logom, schéma, normalizácia URL, bot verifikácia, základné reporty (status mix, coverage).
Days 31–60: wasted crawl zásahy, redirect cleanup, cache-policy tuning, monitoring p95 TTFB.
Days 61–90: hlboká segmentácia podľa sekcií, SPA/SSR audit, automatizácia dashboardov a alertov.

Výstupy pre stakeholderov: čo komu ukázať

SEO tím: coverage, wasted crawl, re-crawl po zmenách obsahu.
DevOps: p95 TTFB podľa služby, cache ratio, špičky a 5xx korelácie s releasmi.
Produkt: parametre/listingy generujúce URL explóziu, návrh obmedzení filtrov.
Manažment: trend dostupnosti, riziká migrácií, dopad na organický výkon.

Zhrnutie: logy ako zdroj pravdy

Log analýza odkrýva, ako naozaj prechádzajú boti váš web a čo ich brzdí. Umožňuje šetriť crawl budget, zrýchliť HTML, konsolidovať URL pri migráciách a presne merať dopad zmien. Kto logy nečíta, optimalizuje „naslepo“. Zaveďte disciplinovaný ingest, robustnú normalizáciu a pravidelný reporting – a premeňte logy na konkurenčnú výhodu v technickom SEO aj výkone.

Samuel Salaj komentoval SCRUM
Filip Sichman komentoval Parcela
Šajno komentoval Odvolateľný akreditív
Šajto komentoval AVV
DawnBreaker komentoval Spoločnosť s ručením obmedzeným
Ellen komentoval Úverová kalkulačka
Julius Simsky komentoval Priemysel
Dwaewiel komentoval IOST (IOST)
Veronika B. komentoval Finančný trh
Peter Trnka komentoval Počítačový vírus