Čo je RAG a prečo mení pravidlá hry
Retrieval-Augmented Generation (RAG) je architektúra, v ktorej veľký jazykový model (LLM) generuje odpoveď až po tom, čo si na základe používateľského dotazu vyhľadá relevantné fakty v externých zdrojoch. Spojenie vyhľadávania a generovania zásadne znižuje halucinácie, zlepšuje aktuálnosť a umožňuje citovať zdroje. V kontexte optimalizácie webov pre ChatGPT/LLM (AIO/AEO) a moderného SEO je RAG most medzi autoritatívnym obsahom na webe a modelmi, ktoré odpovede sprostredkujú.
Komponenty RAG: end-to-end pohľad
- Ingest a normalizácia: extrakcia z HTML/API/CSV/PDF, čistenie, deduplikácia, generovanie metadát.
- Indexácia: vektorový index (embeddingy) + textový index (BM25) + metadátové filtre.
- Retrieval: výber pasáží podľa dotazu (dense, sparse, hybrid), reranking a diverzifikácia.
- Orchestrácia promptu: vloženie vybraných pasáží a inštrukcií do systému (templating, role).
- Generovanie s citáciami: LLM tvorí odpoveď, odkazuje
source_url, sumarizuje a uvádza obmedzenia. - Feedback a monitoring: meranie kvality, výpadkov, latencie, aktualizácie indexu (freshness).
Prepojenie s AIO/AEO a moderným SEO
RAG posúva SEO od kľúčových slov k citovateľným faktom a dostupným dátam. Pre majiteľov webov je cieľ jasný: poskytovať strojovo čitateľný, stabilne adresovateľný a licencovaný obsah, ktorý sa dá bezpečne načítať do RAG reťazcov asistentov. Pre marketérov to znamená merať share-of-voice v AI odpovediach a optimalizovať sourceability (schopnosť byť vybraný ako zdroj).
Ingest: z HTML k čistým pasážam
- Extrahujte „content_text“: verziu bez navigácie, reklamy a boilerplate; uchovajte aj originál pre citáciu.
- Stabilné URL a kotvy: generujte per-sekčné kotvy (
#kapitola-tema) na hlboké citácie. - Normalizujte jednotky a dátumy: ISO 8601, SI jednotky, mierky a lokálne formáty vyznačte v metadátach.
- Odstráňte duplicity: kanonikalizujte verzie, jazykové mutácie prepájajte cez
hreflang.
Chunking a kontextové okná
- Veľkosť chunku: 300–1 200 tokenov podľa domény; kratšie pre definície, dlhšie pre metodiky.
- Prekryv: 10–20 % pre udržanie súvislostí (slovníky pojmov, vzorce, definície).
- Semantický vs. pevný chunking: segmentujte podľa nadpisov a logických celkov, nie fixnej dĺžky.
- Rich metadáta: jazyk, autor, dátum, verzia, typ obsahu, schéma kategórií, licenčné obmedzenia.
Embeddingy a indexy: hybrid je základ
- Dense (vektorové) vyhľadávanie: zachytí sémantiku, synonymá, parafrázy.
- Sparse (BM25): presné kľúčové slová, kódy noriem, skratky, čísla modelov.
- Hybrid: spojte skóre (napr. vážený súčet) a aplikujte MMR alebo diversifikáciu, aby ste pokryli viac uhlov.
- Reranking: malý cross-encoder na 10–50 kandidátov výrazne zvýši presnosť top-k.
Retrieval: od dotazu k dôkazom
- Query reformulation: premenovanie nejednoznačných dotazov (agent „query-rewriter“).
- Filtre a facetové polia: obor/jazyk/rok; pre noriem a zákonov je filter na verziu nutnosť.
- Temporal awareness: uprednostnite novšie verzie (pole
valid_from,valid_to), ale ponechajte historické citácie. - Citovateľné snippety: vráťte URL + kotvu + krátky výrez (2–3 vety) ako evidence.
Orchestrácia promptu a riadenie generovania
- Inštrukcie pre „grounded answers“: model smie tvrdiť iba to, čo je podporené v dôkazoch; inak má odpovedať „neviem“ + odporučiť ďalšie zdroje.
- Striktné citácie: pri každom tvrdení s číslami/terminológiou priložiť
[1]… s URL a verziou dokumentu. - Formát odpovede: najprv stručná odpoveď, potom zdôvodnenie a citácie, napokon obmedzenia a dátum platnosti.
- Kontrola dĺžky: prispôsobte výstup 50/150/300-slovným režimom pre „answer-first“ spotrebu.
Minimalizácia halucinácií
- Strict mode: vynucujte „no-source → no-claim“; ak dôkaz chýba, žiadajte doplňujúce vyhľadávanie.
- Konflikt zdrojov: pri rozpore uveďte obe verzie, dátumy a vysvetlenie, ktorá platí (lex-posterior, lex-specialis).
- Numerické fakty: vyžadujte zhodu aspoň v dvoch nezávislých pasážach alebo v primárnej tabuľke.
Aktuálnosť: freshness, delta a reindex
- Delta ingest: spracujte iba zmenené dokumenty podľa
ETagalebolast_modified. - Priority fronty: preferujte autoritatívne domény, sekcie „novinky“, changelogy, cenníky a normy.
- Expirácia embeddingov: re-embed po zmene alebo po lehote (napr. 30–90 dní) podľa volatility domény.
Licencie, TDM a compliance
- Legálny prístup: rešpektujte autorské práva, licencie (CC-BY, ODbL) a TDM výnimky.
- PII a citlivé dáta: odstraňujte osobné údaje z indexu; logy pseudonymizujte.
- Auditovateľnosť: ukladajte verziu zdroja, čas retrievalu a hash pasáže pre neskoršie overenie.
UX výstupu: ako servírovať odpoveď
- Answer-first: 1–2 vety zhrnutia, potom „Ako sme na to prišli“ so zdrojmi.
- Citácie s kotvami: namiesto homepage linkujte priamo na sekciu; zobrazujte názov dokumentu a dátum.
- Stupeň istoty: odhad dôvery (napr. nízky/stredný/vysoký) podľa scorov retrievalu a počtu súhlasných zdrojov.
Meranie kvality RAG (KPI a offline/online evaluácie)
- Retrieval Recall@k: či sa v top-k nachádza pasáž s odpoveďou (gold label).
- Groundedness/Attribution: podiel tvrdení podložených citáciami, penalizácia za „unattributed claims“.
- Factuality/Exact Match: zhodnosť čísel, definícií a záverov s referenciou.
- Latency p95: čas od dotazu po odpoveď; sledujte zvlášť vyhľadávanie, rerank, generovanie.
- User-side úspešnosť: kliky na zdroje, „was this helpful“, následné akcie a konverzie.
Architektonické vzory v praxi
- Classic RAG: jeden dotaz → hybrid retrieval → 3–8 pasáží → LLM.
- Multi-hop RAG: postupné otázky, keď je potrebné zložiť odpoveď z viacerých dokumentov.
- Toolformer RAG: LLM rozhoduje o volaniach nástrojov (tabuľkový výpočet, graf, preklad) popri čítaní zdrojov.
- Agentný RAG: plán → vyhľadanie → validácia → syntéza → citácie → kontrola kvality.
Optimalizácia nákladov a výkonu
- Cache retrievalu: kešujte
(dotaz → kandidáti)s normalizovaným dotazom; invalidujte pri veľkých zmenách indexu. - Prompt caching: často kladené otázky držte v krátkych odpovediach s referenciami.
- Kompresia kontextu: pred generovaním zhrňte dlhé pasáže (map-reduce summarization) a ponechajte citácie.
- Rerank len ak treba: pre známe vzory dotazov obíďte rerank alebo znížte kandidátov.
Obsahové požiadavky na „byť zdrojom pre RAG“
- Jasné definície a metodiky: citovateľné bloky s nadpismi a jednoznačnými tvrdeniami.
- Štrukturované dáta: tabuľky, JSON/CSV exporty, DataDownload v schema.org.
- Verzie a dátumy: „platí od“, „revízia“, changelog; aby LLM vedeli, čo je aktuálne.
- Per-sekčné URL: každá kľúčová pasáž má vlastný odkaz a stabilný identifikátor.
Technická príprava webu pre AIO/AEO
- Schema.org: Article/TechArticle/HowTo s author, dateModified, citation, isBasedOn.
- Dataset sitemap: zahrňte datasety, CSV/JSON a ich
lastmod. - Rýchlosť a dostupnosť: CDN, stabilné 200/304 odpovede, bez agresívnych anti-bot brán pre verejné zdroje.
- Licenčné hlavičky:
X-Robots-Tagpre TDM, jasné podmienky použitia.
Bezpečnosť a ochrana pred zneužitím
- Rate limiting a kvóty: chráňte zdroje, ale povoľte férový prístup asistentom.
- Signed URLs a hot-pathy: pre nákladné výpočty používajte krátkodobé podpísané odkazy.
- Detekcia prompt-injection: čistite pasáže od inštrukcií pokúšajúcich sa meniť správanie modelu.
Príklady použitia podľa domény
- E-commerce: odpoveď o kompatibilite produktu s citáciou z technického listu a dostupnosti z API skladu.
- Právo a normy: generovanie s výberom poslednej účinnej verzie a jasným „neprávne poradenstvo“ disclaimerom.
- Zdravotníctvo (neklinické): edukatívny obsah s odkazmi na smernice a dátum revízie.
Kontrolný zoznam pre nasadenie RAG
- Máte hybridný retrieval s rerankingom a MMR?
- Sú pasáže chunkované semanticky, s metadátami a stabilnými URL?
- Vynucujete pravidlo „no-source → no-claim“ a generujete citácie?
- Bežia delta ingest a pravidelný re-embed podľa volatility?
- Meriate Recall@k, groundedness a p95 latenciu?
- Riešite licencie, TDM, PII a auditovateľnosť?
RAG je praktický spôsob, ako prepojiť silu LLM s dôveryhodnými zdrojmi. V optimalizácii webov pre ChatGPT/LLM (AIO/AEO) prináša dvojaký efekt: používateľom poskytuje presné, aktuálne a citované odpovede a publisherom dáva možnosť stať sa „favorizovanými“ zdrojmi. Kto pripraví obsah na citovanie (štruktúra, metadáta, verzie, per-sekčné URL) a nasadí robustný retrieval, získa náskok v ére odpoveďového webu.