Čo je kontextové okno a prečo na ňom záleží
Kontextové okno (context window) je horná hranica množstva tokenov, ktoré môže model veľkého jazyka (LLM) spracovať v jednom volaní. Zvyčajne zahŕňa vstupné inštrukcie, históriu konverzácie, systémové pravidlá, retrievované dokumenty a vygenerovanú odpoveď. Pri optimalizácii webov pre AIO/AEO (AI/Answer Engine Optimization) limit kontextu určuje, koľko dôkazov sa zmestí do promptu, ako ich model udrží v pracovnej pamäti a akú časť obsahu môže citovať bez orezania.
Tokeny vs. znaky: praktické prepočty
- Token nie je znak ani slovo; je to fragment textu. V európskych jazykoch platí hrubá pomôcka: 1 token ≈ 0,75 slova alebo ≈ 4 znaky.
- Pri plánovaní promptov a dávkovaní dokumentov počítajte s rezervou 10–20 % na systémové a skryté tokeny.
- Pre dlhé HTML stránky odhadnite kapacitu jednoduchým skriptom: odstrániť HTML, normalizovať medzery, ztokenizovať, porovnať proti limitu modelu.
Štruktúra obsahu v kontexte: vrstvy a priority
- Vrstvy: systémové pravidlá → inštrukcie úlohy → metadáta (identifikátory, zdroje) → evidenčné úryvky → otázka.
- Priorita: najdôležitejší dôkaz vyššie, redundantné pasáže nižšie alebo mimo kontext (na odkaz).
- Ekonomika tokenov: šetriť na naratívnych častiach, investovať do tabuliek, čísel, citácií a negatívnych tvrdení.
Truncation (orezávanie) a jeho riziká
- Príliš dlhý vstup býva potichu orezaný od začiatku alebo konca. Strata systémových pravidiel vedie k porušeniu štýlu; strata dôkazov k halucináciám.
- Obrana: sentinelové značky (BEGIN/END), počítadlá tokenov, sekcionizácia a priebežné sumarizácie s citáciami.
- Pri RAG pipeline používajte krátke, sémanticky husté chunkovanie (napr. 300–800 tokenov) so sliding window presahom 10–20 %.
Chunking a prepojovanie: ako deliť dlhé stránky
- Prirodzené hranice: H2/H3, tabuľky, zoznamy, definície; vyhnúť sa delenia odstavca v polovici vety.
- Lokálne sumáre: na konci sekcie 2–3 vety „Key takeaways“ + ukotvené odkazy na zdroje.
- Anchor ID: každý blok má stabilné
idpre presné citovanie v odpovediach AI.
Retrieval-Augmented Generation (RAG) a kontextové okno
RAG minimalizuje tlak na kontext tým, že vyberá len najrelevantnejšie úryvky.
- Dual-stage retrieval: rýchly vektorový recall → re-rank cez cross-encoder → výber top-k (typicky 3–8 chunkov).
- Anti-noise filtrácia: penalizovať dlhé, neštruktúrované úryvky; preferovať tabuľky a definície.
- Citácie: ku každému úryvku pridávať URL, dátum a verziu; LLM má potom menší sklon domýšľať.
Kontextové stratégie: krátky vs. dlhý kontext
- Krátky kontext (≤ 8–32k tokenov): vyššia presnosť pozornosti; vyžaduje disciplinované promptovanie a výber úryvkov.
- Dlhý kontext (≥ 100k tokenov): zmestí viac zdrojov, ale môže trpieť na distance bias (nižšia váha vzdialenejších tokenov) a vyššiu latenciu.
- Prakticky: miešajte condensed brief (200–500 tokenov) + evidence appendix (náhľady tabuliek) namiesto vylievania celých článkov.
Riadenie latencie a nákladov
- Komplexita: hustota pozornosti rastie s dĺžkou kontextu; väčší prompt = vyššia cena a pomalšia odozva.
- KV cache: pri interaktívnych chatoch znižujte opakované posielanie rovnakých systémových častí pomocou perzistencie stavu (ak ju rozhranie podporuje).
- Response budget: ponechajte 10–30 % okna na odpoveď; ak ho vyčerpáte kontextom, model nedokončí výstup.
Promptová architektúra pre maximálnu informačnú hustotu
- Inštrukčná hlavička: roly, štýl, požiadavky na citácie a obmedzenia (napr. „necituj mimo uvedených zdrojov“).
- Query plan: stručný zoznam podúloh, ktoré má model splniť (extrakcia → validácia → odpoveď).
- Evidence pack: 3–8 najrelevantnejších chunkov (tabuľky/zoznamy), každý s meta riadkom: origin, date, version.
- Output schema: krátka špecifikácia formátu (napr. JSON/HTML tabuľka), aby sa predišlo verbóznosti.
Negatívne a obmedzujúce signály proti halucináciám
- „Ak nie je dôkaz, uveď ‚neznáme‘“: explicitne povoliť odpoveď „neviem“.
- Blacklist sekcií: v promte zakázať použitie nízkodôveryhodných častí alebo starých verzií.
- Konflikty: ak sa dôkazy líšia, vyžadovať „conflict report“ s uvedením oboch verzií a dátumov.
Sumarizácia pre dlhé dokumenty: kaskády a map-reduce
- Map: lokálne sumáre na úrovni sekcií (≤ 200 tokenov každý) s citáciami.
- Reduce: syntéza sumárov do vyššej úrovne (≤ 400 tokenov), zachovať metadáta.
- Refine: doplniť chýbajúce fakty na základe spätnej väzby alebo ďalších chunkov.
Evaluácia „context utilization“
- Hit-rate: podiel odpovedí, ktoré citujú poskytnuté úryvky (≥ 85 % cieľ).
- Exact match na kľúčových poliach: čísla a enumy v odpovedi vs. „zlatý“ dataset.
- Position bias test: rotujte poradie úryvkov a sledujte zmeny (model by nemal ignorovať neskoršie, ak sú relevantné).
Kontext v multi-turn dialógoch
- Session pruning: udržujte iba posledné kroky + „memory summary“ so zdrojmi.
- Threading: odlišné témy do samostatných vlákien, aby sa neplytvalo kontextom.
- Stateful odkazy: namiesto opakovaného vkladania tabuliek posielajte ID a požadujte re-retrieval.
HTML/SEO praktiky pre AEO a kontext
- Krátke, štruktúrované bloky: H2 sekcie, tabuľky a definície; minimalizovať dlhé naratívy bez štruktúry.
- Exporty: ponúknuť CSV/JSON; pri RAG viete poslať len výrez s presnými poľami.
- Verziovanie: dátum poslednej revízie a číslo verzie pri tabuľkách (LLM uprednostní najnovšie).
Rozšírené techniky pre veľké kontexty
- Re-ranking s citlivým oknom: zväčšite top-k recall a zmenšite top-m kontext po re-rankingu.
- Hierarchické embeddovanie: dokument → sekcia → odsek; vyhľadávanie najprv v hrubých, potom v jemných vektoroch.
- Hybrid BM25 + vektory: zlepší presnosť pre číselné a presné frázy (GTIN, MPN, kódy).
Bezpečnosť a compliance v kontexte
- PII/PHI filtrácia: pred vložením do kontextu pseudonymizovať alebo redigovať citlivé dáta.
- Licenčné obmedzenia: citovať len zdroje s povolením; ukladať dôkaz o licenciách v metadátach.
- Audit trail: logovať, ktoré úryvky boli poslané a akú odpoveď vyvolali.
Najčastejšie chyby pri práci s kontextovým oknom
- Vylievanie celých článkov bez výberu – zbytočné náklady a horšia presnosť.
- Nedostatočná rezerva pre odpoveď – model nedokončí výstup alebo ho skráti.
- Miešanie tém v jednom promte – zníženie relevance a vyššie riziko halucinácií.
- Chýbajúce citácie a verzie – nemožno spätne overiť, či odpoveď vychádzala z aktuálnych dát.
Checklist pre operatívnu prácu s kontextom
- Definovať cieľ odpovede a output schema pred výberom dôkazov.
- Vybrať 3–8 najrelevantnejších chunkov (300–800 tokenov) s metadátami.
- Zabezpečiť 10–30 % voľného priestoru na generovanie.
- Označiť sekcie sentinelmi a pridať krátky „brief“ (≤ 300 tokenov).
- Logovať použité úryvky, verzie a URL pre audit a replikáciu.
Kontextové okno je praktická hranica „pracovnej pamäte“ LLM. Rozumnej voľbe úryvkov, štruktúre promptu a disciplíne v citáciách vďačíme za presnosť, nižšiu latenciu a reprodukovateľnosť odpovedí. Namiesto snahy zväčšovať kontext bezbreho sa oplatí zvyšovať jeho informačnú hustotu – a tým získať konzistentné, overiteľné a rýchle odpovede v AIO/AEO scenároch aj v modernom SEO.