Kontextové okno – Ekonomická encyklopédia

Čo je kontextové okno a prečo na ňom záleží

Kontextové okno (context window) je horná hranica množstva tokenov, ktoré môže model veľkého jazyka (LLM) spracovať v jednom volaní. Zvyčajne zahŕňa vstupné inštrukcie, históriu konverzácie, systémové pravidlá, retrievované dokumenty a vygenerovanú odpoveď. Pri optimalizácii webov pre AIO/AEO (AI/Answer Engine Optimization) limit kontextu určuje, koľko dôkazov sa zmestí do promptu, ako ich model udrží v pracovnej pamäti a akú časť obsahu môže citovať bez orezania.

Tokeny vs. znaky: praktické prepočty

Token nie je znak ani slovo; je to fragment textu. V európskych jazykoch platí hrubá pomôcka: 1 token ≈ 0,75 slova alebo ≈ 4 znaky.
Pri plánovaní promptov a dávkovaní dokumentov počítajte s rezervou 10–20 % na systémové a skryté tokeny.
Pre dlhé HTML stránky odhadnite kapacitu jednoduchým skriptom: odstrániť HTML, normalizovať medzery, ztokenizovať, porovnať proti limitu modelu.

Štruktúra obsahu v kontexte: vrstvy a priority

Vrstvy: systémové pravidlá → inštrukcie úlohy → metadáta (identifikátory, zdroje) → evidenčné úryvky → otázka.
Priorita: najdôležitejší dôkaz vyššie, redundantné pasáže nižšie alebo mimo kontext (na odkaz).
Ekonomika tokenov: šetriť na naratívnych častiach, investovať do tabuliek, čísel, citácií a negatívnych tvrdení.

Truncation (orezávanie) a jeho riziká

Príliš dlhý vstup býva potichu orezaný od začiatku alebo konca. Strata systémových pravidiel vedie k porušeniu štýlu; strata dôkazov k halucináciám.
Obrana: sentinelové značky (BEGIN/END), počítadlá tokenov, sekcionizácia a priebežné sumarizácie s citáciami.
Pri RAG pipeline používajte krátke, sémanticky husté chunkovanie (napr. 300–800 tokenov) so sliding window presahom 10–20 %.

Chunking a prepojovanie: ako deliť dlhé stránky

Prirodzené hranice: H2/H3, tabuľky, zoznamy, definície; vyhnúť sa delenia odstavca v polovici vety.
Lokálne sumáre: na konci sekcie 2–3 vety „Key takeaways“ + ukotvené odkazy na zdroje.
Anchor ID: každý blok má stabilné id pre presné citovanie v odpovediach AI.

Retrieval-Augmented Generation (RAG) a kontextové okno

RAG minimalizuje tlak na kontext tým, že vyberá len najrelevantnejšie úryvky.

Dual-stage retrieval: rýchly vektorový recall → re-rank cez cross-encoder → výber top-k (typicky 3–8 chunkov).
Anti-noise filtrácia: penalizovať dlhé, neštruktúrované úryvky; preferovať tabuľky a definície.
Citácie: ku každému úryvku pridávať URL, dátum a verziu; LLM má potom menší sklon domýšľať.

Kontextové stratégie: krátky vs. dlhý kontext

Krátky kontext (≤ 8–32k tokenov): vyššia presnosť pozornosti; vyžaduje disciplinované promptovanie a výber úryvkov.
Dlhý kontext (≥ 100k tokenov): zmestí viac zdrojov, ale môže trpieť na distance bias (nižšia váha vzdialenejších tokenov) a vyššiu latenciu.
Prakticky: miešajte condensed brief (200–500 tokenov) + evidence appendix (náhľady tabuliek) namiesto vylievania celých článkov.

Riadenie latencie a nákladov

Komplexita: hustota pozornosti rastie s dĺžkou kontextu; väčší prompt = vyššia cena a pomalšia odozva.
KV cache: pri interaktívnych chatoch znižujte opakované posielanie rovnakých systémových častí pomocou perzistencie stavu (ak ju rozhranie podporuje).
Response budget: ponechajte 10–30 % okna na odpoveď; ak ho vyčerpáte kontextom, model nedokončí výstup.

Promptová architektúra pre maximálnu informačnú hustotu

Inštrukčná hlavička: roly, štýl, požiadavky na citácie a obmedzenia (napr. „necituj mimo uvedených zdrojov“).
Query plan: stručný zoznam podúloh, ktoré má model splniť (extrakcia → validácia → odpoveď).
Evidence pack: 3–8 najrelevantnejších chunkov (tabuľky/zoznamy), každý s meta riadkom: origin, date, version.
Output schema: krátka špecifikácia formátu (napr. JSON/HTML tabuľka), aby sa predišlo verbóznosti.

Negatívne a obmedzujúce signály proti halucináciám

„Ak nie je dôkaz, uveď ‚neznáme‘“: explicitne povoliť odpoveď „neviem“.
Blacklist sekcií: v promte zakázať použitie nízkodôveryhodných častí alebo starých verzií.
Konflikty: ak sa dôkazy líšia, vyžadovať „conflict report“ s uvedením oboch verzií a dátumov.

Sumarizácia pre dlhé dokumenty: kaskády a map-reduce

Map: lokálne sumáre na úrovni sekcií (≤ 200 tokenov každý) s citáciami.
Reduce: syntéza sumárov do vyššej úrovne (≤ 400 tokenov), zachovať metadáta.
Refine: doplniť chýbajúce fakty na základe spätnej väzby alebo ďalších chunkov.

Evaluácia „context utilization“

Hit-rate: podiel odpovedí, ktoré citujú poskytnuté úryvky (≥ 85 % cieľ).
Exact match na kľúčových poliach: čísla a enumy v odpovedi vs. „zlatý“ dataset.
Position bias test: rotujte poradie úryvkov a sledujte zmeny (model by nemal ignorovať neskoršie, ak sú relevantné).

Kontext v multi-turn dialógoch

Session pruning: udržujte iba posledné kroky + „memory summary“ so zdrojmi.
Threading: odlišné témy do samostatných vlákien, aby sa neplytvalo kontextom.
Stateful odkazy: namiesto opakovaného vkladania tabuliek posielajte ID a požadujte re-retrieval.

HTML/SEO praktiky pre AEO a kontext

Krátke, štruktúrované bloky: H2 sekcie, tabuľky a definície; minimalizovať dlhé naratívy bez štruktúry.
Exporty: ponúknuť CSV/JSON; pri RAG viete poslať len výrez s presnými poľami.
Verziovanie: dátum poslednej revízie a číslo verzie pri tabuľkách (LLM uprednostní najnovšie).

Rozšírené techniky pre veľké kontexty

Re-ranking s citlivým oknom: zväčšite top-k recall a zmenšite top-m kontext po re-rankingu.
Hierarchické embeddovanie: dokument → sekcia → odsek; vyhľadávanie najprv v hrubých, potom v jemných vektoroch.
Hybrid BM25 + vektory: zlepší presnosť pre číselné a presné frázy (GTIN, MPN, kódy).

Bezpečnosť a compliance v kontexte

PII/PHI filtrácia: pred vložením do kontextu pseudonymizovať alebo redigovať citlivé dáta.
Licenčné obmedzenia: citovať len zdroje s povolením; ukladať dôkaz o licenciách v metadátach.
Audit trail: logovať, ktoré úryvky boli poslané a akú odpoveď vyvolali.

Najčastejšie chyby pri práci s kontextovým oknom

Vylievanie celých článkov bez výberu – zbytočné náklady a horšia presnosť.
Nedostatočná rezerva pre odpoveď – model nedokončí výstup alebo ho skráti.
Miešanie tém v jednom promte – zníženie relevance a vyššie riziko halucinácií.
Chýbajúce citácie a verzie – nemožno spätne overiť, či odpoveď vychádzala z aktuálnych dát.

Checklist pre operatívnu prácu s kontextom

Definovať cieľ odpovede a output schema pred výberom dôkazov.
Vybrať 3–8 najrelevantnejších chunkov (300–800 tokenov) s metadátami.
Zabezpečiť 10–30 % voľného priestoru na generovanie.
Označiť sekcie sentinelmi a pridať krátky „brief“ (≤ 300 tokenov).
Logovať použité úryvky, verzie a URL pre audit a replikáciu.

Kontextové okno je praktická hranica „pracovnej pamäte“ LLM. Rozumnej voľbe úryvkov, štruktúre promptu a disciplíne v citáciách vďačíme za presnosť, nižšiu latenciu a reprodukovateľnosť odpovedí. Namiesto snahy zväčšovať kontext bezbreho sa oplatí zvyšovať jeho informačnú hustotu – a tým získať konzistentné, overiteľné a rýchle odpovede v AIO/AEO scenároch aj v modernom SEO.

Samuel Salaj komentoval SCRUM
Filip Sichman komentoval Parcela
Šajno komentoval Odvolateľný akreditív
Šajto komentoval AVV
DawnBreaker komentoval Spoločnosť s ručením obmedzeným
Ellen komentoval Úverová kalkulačka
Julius Simsky komentoval Priemysel
Dwaewiel komentoval IOST (IOST)
Veronika B. komentoval Finančný trh
Peter Trnka komentoval Počítačový vírus