RAG (retrieval-augmented generation)

RAG (retrieval-augmented generation)

Čo je RAG a prečo mení pravidlá hry

Retrieval-Augmented Generation (RAG) je architektúra, v ktorej veľký jazykový model (LLM) generuje odpoveď až po tom, čo si na základe používateľského dotazu vyhľadá relevantné fakty v externých zdrojoch. Spojenie vyhľadávania a generovania zásadne znižuje halucinácie, zlepšuje aktuálnosť a umožňuje citovať zdroje. V kontexte optimalizácie webov pre ChatGPT/LLM (AIO/AEO) a moderného SEO je RAG most medzi autoritatívnym obsahom na webe a modelmi, ktoré odpovede sprostredkujú.

Komponenty RAG: end-to-end pohľad

  • Ingest a normalizácia: extrakcia z HTML/API/CSV/PDF, čistenie, deduplikácia, generovanie metadát.
  • Indexácia: vektorový index (embeddingy) + textový index (BM25) + metadátové filtre.
  • Retrieval: výber pasáží podľa dotazu (dense, sparse, hybrid), reranking a diverzifikácia.
  • Orchestrácia promptu: vloženie vybraných pasáží a inštrukcií do systému (templating, role).
  • Generovanie s citáciami: LLM tvorí odpoveď, odkazuje source_url, sumarizuje a uvádza obmedzenia.
  • Feedback a monitoring: meranie kvality, výpadkov, latencie, aktualizácie indexu (freshness).

Prepojenie s AIO/AEO a moderným SEO

RAG posúva SEO od kľúčových slov k citovateľným faktom a dostupným dátam. Pre majiteľov webov je cieľ jasný: poskytovať strojovo čitateľný, stabilne adresovateľný a licencovaný obsah, ktorý sa dá bezpečne načítať do RAG reťazcov asistentov. Pre marketérov to znamená merať share-of-voice v AI odpovediach a optimalizovať sourceability (schopnosť byť vybraný ako zdroj).

Ingest: z HTML k čistým pasážam

  • Extrahujte „content_text“: verziu bez navigácie, reklamy a boilerplate; uchovajte aj originál pre citáciu.
  • Stabilné URL a kotvy: generujte per-sekčné kotvy (#kapitola-tema) na hlboké citácie.
  • Normalizujte jednotky a dátumy: ISO 8601, SI jednotky, mierky a lokálne formáty vyznačte v metadátach.
  • Odstráňte duplicity: kanonikalizujte verzie, jazykové mutácie prepájajte cez hreflang.

Chunking a kontextové okná

  • Veľkosť chunku: 300–1 200 tokenov podľa domény; kratšie pre definície, dlhšie pre metodiky.
  • Prekryv: 10–20 % pre udržanie súvislostí (slovníky pojmov, vzorce, definície).
  • Semantický vs. pevný chunking: segmentujte podľa nadpisov a logických celkov, nie fixnej dĺžky.
  • Rich metadáta: jazyk, autor, dátum, verzia, typ obsahu, schéma kategórií, licenčné obmedzenia.

Embeddingy a indexy: hybrid je základ

  • Dense (vektorové) vyhľadávanie: zachytí sémantiku, synonymá, parafrázy.
  • Sparse (BM25): presné kľúčové slová, kódy noriem, skratky, čísla modelov.
  • Hybrid: spojte skóre (napr. vážený súčet) a aplikujte MMR alebo diversifikáciu, aby ste pokryli viac uhlov.
  • Reranking: malý cross-encoder na 10–50 kandidátov výrazne zvýši presnosť top-k.

Retrieval: od dotazu k dôkazom

  • Query reformulation: premenovanie nejednoznačných dotazov (agent „query-rewriter“).
  • Filtre a facetové polia: obor/jazyk/rok; pre noriem a zákonov je filter na verziu nutnosť.
  • Temporal awareness: uprednostnite novšie verzie (pole valid_from, valid_to), ale ponechajte historické citácie.
  • Citovateľné snippety: vráťte URL + kotvu + krátky výrez (2–3 vety) ako evidence.

Orchestrácia promptu a riadenie generovania

  • Inštrukcie pre „grounded answers“: model smie tvrdiť iba to, čo je podporené v dôkazoch; inak má odpovedať „neviem“ + odporučiť ďalšie zdroje.
  • Striktné citácie: pri každom tvrdení s číslami/terminológiou priložiť [1]… s URL a verziou dokumentu.
  • Formát odpovede: najprv stručná odpoveď, potom zdôvodnenie a citácie, napokon obmedzenia a dátum platnosti.
  • Kontrola dĺžky: prispôsobte výstup 50/150/300-slovným režimom pre „answer-first“ spotrebu.

Minimalizácia halucinácií

  • Strict mode: vynucujte „no-source → no-claim“; ak dôkaz chýba, žiadajte doplňujúce vyhľadávanie.
  • Konflikt zdrojov: pri rozpore uveďte obe verzie, dátumy a vysvetlenie, ktorá platí (lex-posterior, lex-specialis).
  • Numerické fakty: vyžadujte zhodu aspoň v dvoch nezávislých pasážach alebo v primárnej tabuľke.

Aktuálnosť: freshness, delta a reindex

  • Delta ingest: spracujte iba zmenené dokumenty podľa ETag alebo last_modified.
  • Priority fronty: preferujte autoritatívne domény, sekcie „novinky“, changelogy, cenníky a normy.
  • Expirácia embeddingov: re-embed po zmene alebo po lehote (napr. 30–90 dní) podľa volatility domény.

Licencie, TDM a compliance

  • Legálny prístup: rešpektujte autorské práva, licencie (CC-BY, ODbL) a TDM výnimky.
  • PII a citlivé dáta: odstraňujte osobné údaje z indexu; logy pseudonymizujte.
  • Auditovateľnosť: ukladajte verziu zdroja, čas retrievalu a hash pasáže pre neskoršie overenie.

UX výstupu: ako servírovať odpoveď

  • Answer-first: 1–2 vety zhrnutia, potom „Ako sme na to prišli“ so zdrojmi.
  • Citácie s kotvami: namiesto homepage linkujte priamo na sekciu; zobrazujte názov dokumentu a dátum.
  • Stupeň istoty: odhad dôvery (napr. nízky/stredný/vysoký) podľa scorov retrievalu a počtu súhlasných zdrojov.

Meranie kvality RAG (KPI a offline/online evaluácie)

  • Retrieval Recall@k: či sa v top-k nachádza pasáž s odpoveďou (gold label).
  • Groundedness/Attribution: podiel tvrdení podložených citáciami, penalizácia za „unattributed claims“.
  • Factuality/Exact Match: zhodnosť čísel, definícií a záverov s referenciou.
  • Latency p95: čas od dotazu po odpoveď; sledujte zvlášť vyhľadávanie, rerank, generovanie.
  • User-side úspešnosť: kliky na zdroje, „was this helpful“, následné akcie a konverzie.

Architektonické vzory v praxi

  • Classic RAG: jeden dotaz → hybrid retrieval → 3–8 pasáží → LLM.
  • Multi-hop RAG: postupné otázky, keď je potrebné zložiť odpoveď z viacerých dokumentov.
  • Toolformer RAG: LLM rozhoduje o volaniach nástrojov (tabuľkový výpočet, graf, preklad) popri čítaní zdrojov.
  • Agentný RAG: plán → vyhľadanie → validácia → syntéza → citácie → kontrola kvality.

Optimalizácia nákladov a výkonu

  • Cache retrievalu: kešujte (dotaz → kandidáti) s normalizovaným dotazom; invalidujte pri veľkých zmenách indexu.
  • Prompt caching: často kladené otázky držte v krátkych odpovediach s referenciami.
  • Kompresia kontextu: pred generovaním zhrňte dlhé pasáže (map-reduce summarization) a ponechajte citácie.
  • Rerank len ak treba: pre známe vzory dotazov obíďte rerank alebo znížte kandidátov.

Obsahové požiadavky na „byť zdrojom pre RAG“

  • Jasné definície a metodiky: citovateľné bloky s nadpismi a jednoznačnými tvrdeniami.
  • Štrukturované dáta: tabuľky, JSON/CSV exporty, DataDownload v schema.org.
  • Verzie a dátumy: „platí od“, „revízia“, changelog; aby LLM vedeli, čo je aktuálne.
  • Per-sekčné URL: každá kľúčová pasáž má vlastný odkaz a stabilný identifikátor.

Technická príprava webu pre AIO/AEO

  • Schema.org: Article/TechArticle/HowTo s author, dateModified, citation, isBasedOn.
  • Dataset sitemap: zahrňte datasety, CSV/JSON a ich lastmod.
  • Rýchlosť a dostupnosť: CDN, stabilné 200/304 odpovede, bez agresívnych anti-bot brán pre verejné zdroje.
  • Licenčné hlavičky: X-Robots-Tag pre TDM, jasné podmienky použitia.

Bezpečnosť a ochrana pred zneužitím

  • Rate limiting a kvóty: chráňte zdroje, ale povoľte férový prístup asistentom.
  • Signed URLs a hot-pathy: pre nákladné výpočty používajte krátkodobé podpísané odkazy.
  • Detekcia prompt-injection: čistite pasáže od inštrukcií pokúšajúcich sa meniť správanie modelu.

Príklady použitia podľa domény

  • E-commerce: odpoveď o kompatibilite produktu s citáciou z technického listu a dostupnosti z API skladu.
  • Právo a normy: generovanie s výberom poslednej účinnej verzie a jasným „neprávne poradenstvo“ disclaimerom.
  • Zdravotníctvo (neklinické): edukatívny obsah s odkazmi na smernice a dátum revízie.

Kontrolný zoznam pre nasadenie RAG

  • Máte hybridný retrieval s rerankingom a MMR?
  • Sú pasáže chunkované semanticky, s metadátami a stabilnými URL?
  • Vynucujete pravidlo „no-source → no-claim“ a generujete citácie?
  • Bežia delta ingest a pravidelný re-embed podľa volatility?
  • Meriate Recall@k, groundedness a p95 latenciu?
  • Riešite licencie, TDM, PII a auditovateľnosť?

RAG je praktický spôsob, ako prepojiť silu LLM s dôveryhodnými zdrojmi. V optimalizácii webov pre ChatGPT/LLM (AIO/AEO) prináša dvojaký efekt: používateľom poskytuje presné, aktuálne a citované odpovede a publisherom dáva možnosť stať sa „favorizovanými“ zdrojmi. Kto pripraví obsah na citovanie (štruktúra, metadáta, verzie, per-sekčné URL) a nasadí robustný retrieval, získa náskok v ére odpoveďového webu.

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *