Kontextové okno

Kontextové okno

Čo je kontextové okno a prečo na ňom záleží

Kontextové okno (context window) je horná hranica množstva tokenov, ktoré môže model veľkého jazyka (LLM) spracovať v jednom volaní. Zvyčajne zahŕňa vstupné inštrukcie, históriu konverzácie, systémové pravidlá, retrievované dokumenty a vygenerovanú odpoveď. Pri optimalizácii webov pre AIO/AEO (AI/Answer Engine Optimization) limit kontextu určuje, koľko dôkazov sa zmestí do promptu, ako ich model udrží v pracovnej pamäti a akú časť obsahu môže citovať bez orezania.

Tokeny vs. znaky: praktické prepočty

  • Token nie je znak ani slovo; je to fragment textu. V európskych jazykoch platí hrubá pomôcka: 1 token ≈ 0,75 slova alebo ≈ 4 znaky.
  • Pri plánovaní promptov a dávkovaní dokumentov počítajte s rezervou 10–20 % na systémové a skryté tokeny.
  • Pre dlhé HTML stránky odhadnite kapacitu jednoduchým skriptom: odstrániť HTML, normalizovať medzery, ztokenizovať, porovnať proti limitu modelu.

Štruktúra obsahu v kontexte: vrstvy a priority

  1. Vrstvy: systémové pravidlá → inštrukcie úlohy → metadáta (identifikátory, zdroje) → evidenčné úryvky → otázka.
  2. Priorita: najdôležitejší dôkaz vyššie, redundantné pasáže nižšie alebo mimo kontext (na odkaz).
  3. Ekonomika tokenov: šetriť na naratívnych častiach, investovať do tabuliek, čísel, citácií a negatívnych tvrdení.

Truncation (orezávanie) a jeho riziká

  • Príliš dlhý vstup býva potichu orezaný od začiatku alebo konca. Strata systémových pravidiel vedie k porušeniu štýlu; strata dôkazov k halucináciám.
  • Obrana: sentinelové značky (BEGIN/END), počítadlá tokenov, sekcionizácia a priebežné sumarizácie s citáciami.
  • Pri RAG pipeline používajte krátke, sémanticky husté chunkovanie (napr. 300–800 tokenov) so sliding window presahom 10–20 %.

Chunking a prepojovanie: ako deliť dlhé stránky

  • Prirodzené hranice: H2/H3, tabuľky, zoznamy, definície; vyhnúť sa delenia odstavca v polovici vety.
  • Lokálne sumáre: na konci sekcie 2–3 vety „Key takeaways“ + ukotvené odkazy na zdroje.
  • Anchor ID: každý blok má stabilné id pre presné citovanie v odpovediach AI.

Retrieval-Augmented Generation (RAG) a kontextové okno

RAG minimalizuje tlak na kontext tým, že vyberá len najrelevantnejšie úryvky.

  • Dual-stage retrieval: rýchly vektorový recall → re-rank cez cross-encoder → výber top-k (typicky 3–8 chunkov).
  • Anti-noise filtrácia: penalizovať dlhé, neštruktúrované úryvky; preferovať tabuľky a definície.
  • Citácie: ku každému úryvku pridávať URL, dátum a verziu; LLM má potom menší sklon domýšľať.

Kontextové stratégie: krátky vs. dlhý kontext

  • Krátky kontext (≤ 8–32k tokenov): vyššia presnosť pozornosti; vyžaduje disciplinované promptovanie a výber úryvkov.
  • Dlhý kontext (≥ 100k tokenov): zmestí viac zdrojov, ale môže trpieť na distance bias (nižšia váha vzdialenejších tokenov) a vyššiu latenciu.
  • Prakticky: miešajte condensed brief (200–500 tokenov) + evidence appendix (náhľady tabuliek) namiesto vylievania celých článkov.

Riadenie latencie a nákladov

  • Komplexita: hustota pozornosti rastie s dĺžkou kontextu; väčší prompt = vyššia cena a pomalšia odozva.
  • KV cache: pri interaktívnych chatoch znižujte opakované posielanie rovnakých systémových častí pomocou perzistencie stavu (ak ju rozhranie podporuje).
  • Response budget: ponechajte 10–30 % okna na odpoveď; ak ho vyčerpáte kontextom, model nedokončí výstup.

Promptová architektúra pre maximálnu informačnú hustotu

  1. Inštrukčná hlavička: roly, štýl, požiadavky na citácie a obmedzenia (napr. „necituj mimo uvedených zdrojov“).
  2. Query plan: stručný zoznam podúloh, ktoré má model splniť (extrakcia → validácia → odpoveď).
  3. Evidence pack: 3–8 najrelevantnejších chunkov (tabuľky/zoznamy), každý s meta riadkom: origin, date, version.
  4. Output schema: krátka špecifikácia formátu (napr. JSON/HTML tabuľka), aby sa predišlo verbóznosti.

Negatívne a obmedzujúce signály proti halucináciám

  • „Ak nie je dôkaz, uveď ‚neznáme‘“: explicitne povoliť odpoveď „neviem“.
  • Blacklist sekcií: v promte zakázať použitie nízkodôveryhodných častí alebo starých verzií.
  • Konflikty: ak sa dôkazy líšia, vyžadovať „conflict report“ s uvedením oboch verzií a dátumov.

Sumarizácia pre dlhé dokumenty: kaskády a map-reduce

  • Map: lokálne sumáre na úrovni sekcií (≤ 200 tokenov každý) s citáciami.
  • Reduce: syntéza sumárov do vyššej úrovne (≤ 400 tokenov), zachovať metadáta.
  • Refine: doplniť chýbajúce fakty na základe spätnej väzby alebo ďalších chunkov.

Evaluácia „context utilization“

  • Hit-rate: podiel odpovedí, ktoré citujú poskytnuté úryvky (≥ 85 % cieľ).
  • Exact match na kľúčových poliach: čísla a enumy v odpovedi vs. „zlatý“ dataset.
  • Position bias test: rotujte poradie úryvkov a sledujte zmeny (model by nemal ignorovať neskoršie, ak sú relevantné).

Kontext v multi-turn dialógoch

  • Session pruning: udržujte iba posledné kroky + „memory summary“ so zdrojmi.
  • Threading: odlišné témy do samostatných vlákien, aby sa neplytvalo kontextom.
  • Stateful odkazy: namiesto opakovaného vkladania tabuliek posielajte ID a požadujte re-retrieval.

HTML/SEO praktiky pre AEO a kontext

  • Krátke, štruktúrované bloky: H2 sekcie, tabuľky a definície; minimalizovať dlhé naratívy bez štruktúry.
  • Exporty: ponúknuť CSV/JSON; pri RAG viete poslať len výrez s presnými poľami.
  • Verziovanie: dátum poslednej revízie a číslo verzie pri tabuľkách (LLM uprednostní najnovšie).

Rozšírené techniky pre veľké kontexty

  • Re-ranking s citlivým oknom: zväčšite top-k recall a zmenšite top-m kontext po re-rankingu.
  • Hierarchické embeddovanie: dokument → sekcia → odsek; vyhľadávanie najprv v hrubých, potom v jemných vektoroch.
  • Hybrid BM25 + vektory: zlepší presnosť pre číselné a presné frázy (GTIN, MPN, kódy).

Bezpečnosť a compliance v kontexte

  • PII/PHI filtrácia: pred vložením do kontextu pseudonymizovať alebo redigovať citlivé dáta.
  • Licenčné obmedzenia: citovať len zdroje s povolením; ukladať dôkaz o licenciách v metadátach.
  • Audit trail: logovať, ktoré úryvky boli poslané a akú odpoveď vyvolali.

Najčastejšie chyby pri práci s kontextovým oknom

  • Vylievanie celých článkov bez výberu – zbytočné náklady a horšia presnosť.
  • Nedostatočná rezerva pre odpoveď – model nedokončí výstup alebo ho skráti.
  • Miešanie tém v jednom promte – zníženie relevance a vyššie riziko halucinácií.
  • Chýbajúce citácie a verzie – nemožno spätne overiť, či odpoveď vychádzala z aktuálnych dát.

Checklist pre operatívnu prácu s kontextom

  1. Definovať cieľ odpovede a output schema pred výberom dôkazov.
  2. Vybrať 3–8 najrelevantnejších chunkov (300–800 tokenov) s metadátami.
  3. Zabezpečiť 10–30 % voľného priestoru na generovanie.
  4. Označiť sekcie sentinelmi a pridať krátky „brief“ (≤ 300 tokenov).
  5. Logovať použité úryvky, verzie a URL pre audit a replikáciu.

Kontextové okno je praktická hranica „pracovnej pamäte“ LLM. Rozumnej voľbe úryvkov, štruktúre promptu a disciplíne v citáciách vďačíme za presnosť, nižšiu latenciu a reprodukovateľnosť odpovedí. Namiesto snahy zväčšovať kontext bezbreho sa oplatí zvyšovať jeho informačnú hustotu – a tým získať konzistentné, overiteľné a rýchle odpovede v AIO/AEO scenároch aj v modernom SEO.

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *