RAG-ready web – Ekonomická encyklopédia

RAG-ready web pre SEO optimalizáciu pre ChatGPT: princípy, architektúra a implementačné vzory

„RAG-ready web“ znamená, že vaša webová stránka je od základu navrhnutá pre retrieval-augmented generation (RAG) – teda pre scenár, keď generatívny model (ako ChatGPT) cielene vyhľadáva, cituje a používa vaše dáta pri odpovediach. Cieľom nie je len klasická indexácia, ale aj presná adresácia odsekov, strojovo čitateľné citácie, exportovateľné datasety a stabilné perma-linky na každú logickú sekciu obsahu.

Prečo „RAG-ready“ prístup patrí do SEO pre ChatGPT

Zvýšenie šance na citáciu: Modely preferujú zdroje s jasnou štruktúrou, odkazovateľnosťou a atribučnými metadátami.
Kontrola kontextu: Vďaka jemnej granularite (ID sekcií, odseky) model preberá presné pasáže namiesto voľnej parafrázy.
Merateľnosť: Perma-linky a dataset manifesty umožňujú presne sledovať, čo sa používa.
Škáľovanie: Jednotný formát exportov (CSV/JSONL/Parquet) skracuje čas integrácie kurátormi a nástrojmi RAG.

Informačná architektúra: od dokumentu po odsek

Vytvorte konzistentnú hierarchiu: korpus → dokument → sekcia → odsek → veta. Každá úroveň musí mať stabilný identifikátor a ukotvenie v URL.

Dokument: trvalé kanonické URL, verzovanie a metadá súboru (autor, licencia, dátumy).
Sekcia: id na nadpise druhej (a nižšej) úrovne a vnútorný odkaz #id-sekcie.
Odsek: krátke, sémanticky súdržné bloky s vlastným id a kotvou (perma-linková ikona).

ID sekcií a perma-linky na odseky: pravidlá generovania

Deterministická tvorba: Slug z nadpisu/obsahu (napr. kebab-case), bez diakritiky a s kontrolou kolízií.
Stabilita v čase: Nemeníte ID pri drobných úpravách textu; pri zásadnom refaktoringu použite data-prev-id s presmerovaním.
Krátkosť: Uprednostnite triezve, čitateľné ID (napr. sekcia-navrh-rag, ods-citacie-format).
Ikona kotvy: Pri každom nadpise/odseku renderujte malú ikonu odkazu s priamou URL na dané #id.

Perex a metadáta pre vyhľadávanie aj RAG

Každý dokument by mal mať krátky abstrakt a kompaktné metadata priamo v HTML i v JSON-LD. Perex vytvára kontext, metadáta nesú strojovo čitateľné signály pre zber a citovanie.

HTML microdata: article s atribútmi itemscope, itemtype (napr. CreativeWork/Article).
JSON-LD: headline, datePublished, version, isPartOf, about, license, citation, identifier.
Granularita: Dopĺňajte hasPart zoznam sekcií/odsekov s ich url a text hashom.

Datasety pre RAG: formáty, polia a granularita

Publikujte exporty, ktoré kopírujú vašu hierarchiu. Minimálne polia pre každý riadok (chunk):

doc_id: stabilný identifikátor dokumentu (napr. UUID alebo deterministický hash kanonického URL).
section_id: identifikátor sekcie (slug/hash).
para_id: identifikátor odseku.
url: úplný perma-link až na odsek https://…/dokument#para_id.
title a section_title: pre ľahké zobrazenie kontextu.
text: čistý text bez HTML; ideálne s normalizáciou whitespace.
tokens: voliteľne počet tokenov; vhodné pri rozvrhu chunkovania.
lang: jazyková značka (BCP-47, napr. sk).
license a attribution: strojovo čitateľné licenčné pravidlá a text atribúcie.
hash: obsahový fingerprint (napr. SHA-256 z normalizovaného text).
updated_at: ISO 8601 čas poslednej zmeny chunku.

Formáty: CSV (ľudsky čitateľné, pozor na úvodzovky), JSONL (štandard pre RAG ingestion), Parquet (efektívne ukladanie, vhodné pre veľké korpusy).

Chunkovanie pre RAG: stratégie a limity

Prirodzené hranice: Primárne chunk = odsek; sekundárne zlúčenie viacerých krátkych odsekov do bloku s limitom tokenov.
Tokenový limit: 256–512 tokenov na chunk je bežný kompromis medzi presnosťou a kontextom.
Prekryvy: 10–15 % prekrývanie medzi susednými chunkmi zlepšuje koherenciu pri odpovediach modelu.
Vylúčenia: Oddeľte navigačné a právne pasáže (cookies, footery), aby neskresľovali retrieval.

Strojovo čitateľné citácie: ako zabezpečiť atribúciu

Citácie musia byť konzistentné v HTML, JSON-LD aj datasetoch. Základné prvky citácie:

Autor/organizácia s perzistentným identifikátorom (identifier, sameAs na profil, napr. ORCID/ISNI).
Dátum vydania a aktualizácie: datePublished, dateModified.
Perma-URL na konkrétny odsek alebo sekciu.
Licencia (URI) a predpísaný atribučný text.

Udržujte aj „Suggested citation“ blok s presnou citáciou a tlačidlom „Skopírovať“ – pre ľudí aj nástroje.

Permalinková politika: kanonická URL, verzie a presmerovania

Kanonické URL: Nech je od začiatku finálne a stabilné; rel="canonical" v HTML i v HTTP hlavičkách.
Verzovanie: ?v= parametre nepoužívajte pre obsah. Uprednostnite metadá verzie v JSON-LD a dateModified. Pri veľkých zmenách môžete vystaviť nový dokument so vzťahom isBasedOn alebo hasVersion.
Redirecty: 301 na nové umiestnenie pri zmene štruktúry; zachovajte #id fragmenty.

HTML značky a atribúty, ktoré pomáhajú RAG

id a data-*: Každý <h2..h4> a <p> nech má id. Doplnkové data-chunk-hash, data-updated-at, data-license.
link rel="canonical" a voliteľne rel="cite-as" (neoficiálne používané vzory) odkazujúce na perma-URL.
Breadcrumbs: Štruktúrované dáta pre kontext v hierarchii.

Manifesty a kontrolné súčty: dôvera a deduplikácia

Vystavte korpusový manifest (napr. /dataset/manifest.json) s položkami pre každý dokument a ich sekcie:

Obsahové hashe (napr. SHA-256) pre dokument, sekcie a odseky – uľahčujú zmenu-detekciu.
Časové pečiatky: published_at, modified_at.
Mapovanie starých→nových ID pri refaktoringu.

XML sitemapy a feedy optimalizované pre RAG

Štandardná sitemap s granularitou po dokumentoch a bohatým <lastmod>.
Index dokumentov pre datasety: odkaz na CSV/JSONL export, manifest a licenciu.
Atom/RSS feedy
Per-entry linky na sekcie (ak meníte konkrétnu sekciu, publikujte záznam so link na daný #id).

Licencovanie a atribučné pravidlá pre bezpečné použitie

Machine-readable licencia (URI), stručné podmienky (napr. CC BY 4.0), a predpísaná citácia v datasetoch aj HTML.
Právne minimum: Jasne definujte obmedzenia (napr. zákaz redistribúcie surového korpusu bez súhlasu).
Polia v datasete: license, attribution, terms_url.

Príprava na embeddingy: čistota textu a normalizácia

Odstránenie šumu: Navigácia, skripty, reklamy – označte a v exportoch vynechajte.
Normalizácia: Unifikujte úvodzovky, medzery, odrážky; konzistentná diakritika.
Jazykové značky: lang na elemente a v datasetoch – dôležité pre multijazyčné korpusy.

Preklady a paralelné korpusy

Prepojenia medzi jazykmi: inLanguage, translationOfWork, workTranslation v JSON-LD.
Rovnaká granularita: Zrkadľte štruktúru sekcií/odsekov – uľahčíte cross-lingual retrieval.

Verzovanie dokumentov a odsekov: auditovateľnosť

Semver-like pole version v JSON-LD; pri major zmene nové perma-URL alebo explicitné hasVersion.
Changelog dostupný cez link rel="alternate" type="application/json" s diffami hashov odsekov.

Monitoring a metriky „RAG-readiness“

Coverage: % dokumentov so sekčnými a odsekovými id a perma-linkami.
Dataset freshness: priemerný rozdiel medzi modified_at na webe a v exporte.
Chunk quality: distribúcia dĺžok, tokenov a pomer prekrývov.
Citation hit-rate: počet externých citácií odkazujúcich na #id fragmenty.

Bezpečnosť a anti-scrape pri zachovaní RAG funkčnosti

Rate-limity a robot policy: chráňte server, ale neblokujte legitímneho zberača exportov a sitemáp.
Obsahové hashe: uľahčujú deduplikáciu a dokazovanie pôvodu; vhodné aj pre partnerov.
Digitálne podpisy: voliteľné podpisovanie exportov (napr. detached signature) pre integritu.

UX vzory pre perma-linky a citácie

Hover/Focus odhalenie ikony kotvy pri nadpisoch a odsekoch.
Kopírovacie tlačidlo pri citácii a pri ID odseku; skopíruje presnú URL #para_id.
„Link to this“ akcia po výbere textu – vygeneruje URL s #para_id a voliteľným ?q= pre zvýraznenie.

Praktický exportný balíček

/dataset/manifest.json: index dokumentov, verzie, per-doc a per-section hashe.
/dataset/corpus.jsonl: jeden riadok = chunk (odsek), polia popísané vyššie.
/dataset/corpus.parquet: rovnaká schéma pre veľké ingestion pipeline.
/dataset/LICENSE: podmienky použitia, atribúcia, kontaktný point.

On-page SEO pre ChatGPT a RAG

H2/H3 hierarchia s jednoznačnými názvami sekcií.
Entity-rich text: pomenované entity s odkazmi na autoritatívne zdroje (sameAs v JSON-LD).
Interné prelinkovanie: zoznam „Súvisiace odseky“ s priamymi linkami na #id.

Implementačný 30-60-90 plán

0–30 dní: Audit kanoník, generovanie id pre sekcie/odseky, UI kotvy, základný JSON-LD a sitemap.
31–60 dní: Datasety (JSONL/Parquet), manifest s hashmi, per-section citácie, exportné end-pointy a monitoring.
61–90 dní: Optimalizácia chunkovania, preklady/parallel corpora, podpisy exportov, atribučné šablóny a UX „Link to this“.

Checklist „RAG-ready“ pred nasadením

Každá sekcia a odsek má stabilné id a fungujúcu kotvu/perma-link.
Existuje JSON-LD s hasPart a odkazmi na #id úrovne.
K dispozícii je manifest a dataset export (JSONL/Parquet) s polami doc_id, section_id, para_id, url, text, hash, license, updated_at.
Per-section „Suggested citation“ blok a kopírovacie tlačidlo funguje.
Sitemapa a feedy odkazujú na nové/aktualizované sekcie.
Monitoring pokrýva coverage, freshness, chunk quality a citation hit-rate.

RAG-ready web je mostom medzi klasickým SEO a svetom generatívnych modelov. Stabilné identifikátory sekcií a odsekov, strojovo čitateľné citácie, kvalitné datasety a premyslené perma-linky zvyšujú pravdepodobnosť, že práve váš obsah sa stane zdrojom pravdy v odpovediach ChatGPT a ďalších asistentov. Takto postavená infraštruktúra znižuje informačný šum, posilňuje atribúciu a prináša merateľné prínosy pre autorov aj používateľov.