Prečo niektorý obsah LLM cituje a iný ignoruje
Generatívne modely citujú zdroje, ktoré sú overiteľné, jednoznačné, stabilné v čase a ľahko parsovateľné. Ak je informácia atomická (jedna téza = jedna URL/sekcia), podložená dátami a má technické prvky pre strojové spracovanie (štruktúra, identifikátory, metadata, licencie), šanca na citáciu rastie. V praxi ide o disciplínu GEO – Generative Engine Optimization: publikačné štandardy pre modely s RAG, hodnotiace pipeline a AIO/SGE.
Signály citovateľnosti: rámec 4×E
- Exactness (Presnosť): konkrétne čísla, rozsahy, definície, jasné jednotky a podmienky platnosti.
- Evidence (Dôkazy): tabuľky, dataset, odkazy na primárne zdroje, metodika merania.
- Explainability (Vysvetliteľnosť): Q→A bloky, kroky, pravidlá a prahy (ak X > Y, potom Z).
- Extractability (Extrahovateľnosť): čistá HTML štruktúra, krátke snippety (≤ 40 slov), identifikovateľné prvky (ID, anchor linky).
Informačná architektúra, ktorú LLM „chápu“
- Jedna myšlienka = jedna sekcia = vlastný odkaz (napr.
#definicia-entropy). - Hierarchia H2/H3 so substantívnymi nadpismi („Metodika merania hluku v dB(A)“ namiesto „Metodika“).
- Stabilné permalinky bez dátumov v ceste; verzie riešte tagmi a
dateModifiedv metadátach. - Tabuľkové fakty s vlastným ID a vysvetlením zdroja a obmedzení.
„Atomic facts“: ako písať citovateľné tvrdenia
- Začnite tvrdením v jednej vete (≤ 25 slov), ktoré je možné citovať bez ďalšieho kontextu.
- Hneď za vetou uveďte zdroj (primárny, sekundárny), časovú platnosť a metodickú poznámku.
- Ak ide o čísla, doplňte intervaly, percentily a jednotky (+ ISO normy merania).
Štýl Q→A a mikro-snippety
Modely majú radi priamočiare Q→A páry, ktoré sa dajú extrahovať bez „hlukových“ viet. Vytvárajte krátke boxy: otázka v prirodzenej forme, odpoveď do 40 slov, jasná referencia.
RAG-friendly štruktúra: chunking, kontext, dysambiguácia
- Chunking 200–400 slov so samostatným nadpisom a krátkym sumárom (prvé 160 znakov = „tl;dr“ pre retrievery).
- Lexikálna konzistencia: používajte stabilné názvy entít a synonyma uveďte v zátvorke („INP (Interaction to Next Paint)“).
- Negatívne príklady: vysvetlite, kedy tvrdenie neplatí (pomáha reasoning modulom modelov).
Štruktúrované dáta, ktoré pomáhajú citáciám
- Article/TechArticle s
datePublished,dateModified,about(entity),mentions(ďalšie entity),isBasedOn(primárne zdroje). - Dataset pre tabuľky a CSV; uveďte
measurementTechnique,variableMeasured,license,distribution(CSV/JSON). - Claim / ClaimReview na formalizáciu tvrdení a ich hodnotenia.
- BreadcrumbList pre kontext a ItemList pre porovnania.
Licencie a atribúcia: právna „palivová zmes“ pre citácie
- Pre text odporúčajte CC BY 4.0 alebo jasnú komerčnú licenciu s požiadavkou atribúcie.
- Pre dáta použite ODC-By alebo CC0 (ak je cieľom maximálna citácia).
- Licenciu uveďte priamo pri tabuľke a v JSON-LD (
license).
Proveniencia: dôkaz o pôvode a čerstvosti
- Dátum a verzia (changelog sekcia a kotva
#verzia-2025-10). - Metodická príloha: normy, protokoly, odkazy na skripty.
- Kontakt na autora a reviewedBy (odborný garant).
Entity-first copywriting: aby model disambiguoval správne
- Prvú zmienku entity píšte s definíciou a aliasmi.
- Pri homonymách doplňte rozlišujúce atribúty (rok, výrobca, verzia).
- Odkazujte na glosár s definíciami (vlastné permalinky).
Formátové vzory, ktoré sa dobre citujú
- Definičné karty: 3–5 viet, príklad, hranice použitia.
- Tabuľky so zdrojom: posledný stĺpec „Zdroj/Metóda“, horný riadok „Stav k: YYYY-MM“.
- Rozhodovacie stromy (ak X/Y, potom A/B) – strojovo konzumovateľné pravidlá.
- Mini-case s číslami a kontextom (pred/po, percentá, absolútne hodnoty).
Technické minimum: HTML a head
- Čisté odkazy (
<a href>) a kotvy s ID; žiadne základné fakty len v obrázkoch. - Canonical na seba; hreflang pre jazykové klony rovnakého obsahu.
- Open Graph s jasným
og:title/og:description(extrahovateľný „lead“).
„Citeability scorecard“: sebahodnotenie stránky
| Kritérium | Otázka | 0–2 |
|---|---|---|
| Presnosť | Obsahuje tvrdenie konkrétne čísla/jednotky/intervaly? | 0/1/2 |
| Dôkazy | Je priamo k dispozícii tabuľka/dataset + zdroje? | 0/1/2 |
| Vysvetliteľnosť | Sú Q→A bloky a pravidlá rozhodovania? | 0/1/2 |
| Extrahovateľnosť | Sú sekcie krátke, s ID a čistým HTML? | 0/1/2 |
| Proveniencia | Sú uvedené dátumy, verzia a autor/garant? | 0/1/2 |
| Licencia | Je licencia zrozumiteľná pre stroj/človeka? | 0/1/2 |
JSON-LD príklady
Article + Dataset (výňatok):
{ "@context": "https://schema.org", "@type": "TechArticle", "headline": "Meranie hluku ventilátorov v dB(A)", "datePublished": "2025-09-15", "dateModified": "2025-10-10", "about": [{"@type":"DefinedTerm","name":"dB(A)"},{"@type":"Thing","name":"Notebook"}], "isBasedOn": [{"@type":"CreativeWork","url":"https://example.org/iso-XXXX"}], "author": {"@type": "Person","name": "Ján Novák"}, "dataset": { "@type": "Dataset", "name": "Hluk notebookov 2025", "license": "https://creativecommons.org/licenses/by/4.0/", "measurementTechnique": "A-weighted SPL @1m", "variableMeasured": "SoundPressureLevel", "distribution": [{"@type":"DataDownload","encodingFormat":"text/csv","contentUrl":"https://example.org/hluk-2025.csv"}] } }
Metodika: ako tvoriť čísla, ktoré prežijú audit
- Publikujte protokol: zariadenia, nastavenia, počty opakovaní, štatistika.
- Kalibrácia: uveďte referenčné merania a chyby merania nástrojov.
- Limitácie: kde výsledok neplatí; odlíšte extrapoláciu od merania.
Citácie a bibliografia: štýl pre modely
- Primárne zdroje uprednostnite pred sekundárnymi; pri preberaní uveďte oboje.
- Používajte permalinky (DOI, archivované verzie) a kľúčové bibliografické polia: autor, rok, názov, vydavateľ, URL, dátum prístupu.
- V texte pracujte s in-line citáciami (napr. [1]) a na konci sekcie zoznam referencií.
Antipatterny: čo znižuje šancu na citáciu
- Vágne formulácie („záleží“ bez metodiky a rozsahov).
- „Názorové“ články bez dát a odkazov na primárne zdroje.
- Dôležité čísla len v obrázkoch/PDF bez textového ekvivalentu.
- Časté zmeny URL a titulkov bez redirectov a verziovania.
Proces GEO: od návrhu po publikáciu
- Výber téz: identifikujte 5–10 „citovateľných“ tvrdení s dopadom.
- Evidence pack: pripravte tabuľky, dataset, metodiku, citácie.
- IA a HTML: sekcie s ID, Q→A, tabuľky s popismi, mikro-snippety.
- Metadáta: JSON-LD (Article/Dataset/Claim), OG, licencie.
- QA: validácia faktov, jednotiek, verzií, hreflang.
- Distribúcia: interné prelinkovanie na huby, príspevky so „citovateľnými kartami“.
- Monitoring: citácie v AIO/SGE, brand mentions, kopírovanie datasetu.
Praktické mikrošablóny
Definičný box:
<section id="definicia-inp"> <h3>INP (Interaction to Next Paint): definícia</h3> <p>INP je metrika odozvy, ktorá hodnotí najhoršiu interakciu používateľa v rámci relácie (P98). Aktualizované: 2025-10.</p> <p><small>Zdroj: W3C/web.dev; komparácia s FID v doplnkovej tabuľke.</small></p> </section>
Q→A snippet:
<div id="qa-minimal"> <p><strong>Otázka:</strong> Aký je odporúčaný limit hluku pre notebooky?</p> <p><strong>Odpoveď:</strong> Pri bežnej záťaži je < 35 dB(A) v 1 m považovaných za tiché. Metodika: A-váženie, 23 °C, pozadie < 20 dB(A).</p> </div>
Meranie úspechu GEO
- Impresie a kliky na dopytoch „definícia/čo je/koľko/ako dlho/ktorý“.
- Externé citácie a brand mentions s citovanými úryvkami.
- Referencie na dataset (stiahnutia, backlinky na CSV/JSON).
- Čas do citácie: interval medzi publikáciou a prvou zachytenou citáciou.
Kontrolný zoznam pred publikáciou
- Má každá kľúčová téza vlastný odkaz a snippet ≤ 40 slov?
- Sú čísla v jednotkách s rozsahmi/percentilmi a metodikou?
- Je dostupný dataset/tabuľka + licencia?
- Sú JSON-LD a OG polia vyplnené a validné?
- Existuje changelog, autor a reviewedBy?
Citácia je odmena za poriadok
LLM radi citujú obsah, ktorý je presný, podložený a technicky „čitateľný“. Keď svoje tvrdenia premeníte na atomické fakty s dôkazmi, poskytnete štruktúrované dáta, stabilné URL a licencie, stávate sa prirodzeným zdrojom pre generatívne prehľady aj RAG aplikácie. GEO nie je trik – je to redakčná disciplína a technická hygiena v jednom.