Obsah pre LLM

Obsah pre LLM

Prečo niektorý obsah LLM cituje a iný ignoruje

Generatívne modely citujú zdroje, ktoré sú overiteľné, jednoznačné, stabilné v čase a ľahko parsovateľné. Ak je informácia atomická (jedna téza = jedna URL/sekcia), podložená dátami a má technické prvky pre strojové spracovanie (štruktúra, identifikátory, metadata, licencie), šanca na citáciu rastie. V praxi ide o disciplínu GEO – Generative Engine Optimization: publikačné štandardy pre modely s RAG, hodnotiace pipeline a AIO/SGE.

Signály citovateľnosti: rámec 4×E

  • Exactness (Presnosť): konkrétne čísla, rozsahy, definície, jasné jednotky a podmienky platnosti.
  • Evidence (Dôkazy): tabuľky, dataset, odkazy na primárne zdroje, metodika merania.
  • Explainability (Vysvetliteľnosť): Q→A bloky, kroky, pravidlá a prahy (ak X > Y, potom Z).
  • Extractability (Extrahovateľnosť): čistá HTML štruktúra, krátke snippety (≤ 40 slov), identifikovateľné prvky (ID, anchor linky).

Informačná architektúra, ktorú LLM „chápu“

  1. Jedna myšlienka = jedna sekcia = vlastný odkaz (napr. #definicia-entropy).
  2. Hierarchia H2/H3 so substantívnymi nadpismi („Metodika merania hluku v dB(A)“ namiesto „Metodika“).
  3. Stabilné permalinky bez dátumov v ceste; verzie riešte tagmi a dateModified v metadátach.
  4. Tabuľkové fakty s vlastným ID a vysvetlením zdroja a obmedzení.

„Atomic facts“: ako písať citovateľné tvrdenia

  • Začnite tvrdením v jednej vete (≤ 25 slov), ktoré je možné citovať bez ďalšieho kontextu.
  • Hneď za vetou uveďte zdroj (primárny, sekundárny), časovú platnosť a metodickú poznámku.
  • Ak ide o čísla, doplňte intervaly, percentily a jednotky (+ ISO normy merania).

Štýl Q→A a mikro-snippety

Modely majú radi priamočiare Q→A páry, ktoré sa dajú extrahovať bez „hlukových“ viet. Vytvárajte krátke boxy: otázka v prirodzenej forme, odpoveď do 40 slov, jasná referencia.

RAG-friendly štruktúra: chunking, kontext, dysambiguácia

  • Chunking 200–400 slov so samostatným nadpisom a krátkym sumárom (prvé 160 znakov = „tl;dr“ pre retrievery).
  • Lexikálna konzistencia: používajte stabilné názvy entít a synonyma uveďte v zátvorke („INP (Interaction to Next Paint)“).
  • Negatívne príklady: vysvetlite, kedy tvrdenie neplatí (pomáha reasoning modulom modelov).

Štruktúrované dáta, ktoré pomáhajú citáciám

  • Article/TechArticle s datePublished, dateModified, about (entity), mentions (ďalšie entity), isBasedOn (primárne zdroje).
  • Dataset pre tabuľky a CSV; uveďte measurementTechnique, variableMeasured, license, distribution (CSV/JSON).
  • Claim / ClaimReview na formalizáciu tvrdení a ich hodnotenia.
  • BreadcrumbList pre kontext a ItemList pre porovnania.

Licencie a atribúcia: právna „palivová zmes“ pre citácie

  • Pre text odporúčajte CC BY 4.0 alebo jasnú komerčnú licenciu s požiadavkou atribúcie.
  • Pre dáta použite ODC-By alebo CC0 (ak je cieľom maximálna citácia).
  • Licenciu uveďte priamo pri tabuľke a v JSON-LD (license).

Proveniencia: dôkaz o pôvode a čerstvosti

  • Dátum a verzia (changelog sekcia a kotva #verzia-2025-10).
  • Metodická príloha: normy, protokoly, odkazy na skripty.
  • Kontakt na autora a reviewedBy (odborný garant).

Entity-first copywriting: aby model disambiguoval správne

  • Prvú zmienku entity píšte s definíciou a aliasmi.
  • Pri homonymách doplňte rozlišujúce atribúty (rok, výrobca, verzia).
  • Odkazujte na glosár s definíciami (vlastné permalinky).

Formátové vzory, ktoré sa dobre citujú

  • Definičné karty: 3–5 viet, príklad, hranice použitia.
  • Tabuľky so zdrojom: posledný stĺpec „Zdroj/Metóda“, horný riadok „Stav k: YYYY-MM“.
  • Rozhodovacie stromy (ak X/Y, potom A/B) – strojovo konzumovateľné pravidlá.
  • Mini-case s číslami a kontextom (pred/po, percentá, absolútne hodnoty).

Technické minimum: HTML a head

  • Čisté odkazy (<a href>) a kotvy s ID; žiadne základné fakty len v obrázkoch.
  • Canonical na seba; hreflang pre jazykové klony rovnakého obsahu.
  • Open Graph s jasným og:title/og:description (extrahovateľný „lead“).

„Citeability scorecard“: sebahodnotenie stránky

Kritérium Otázka 0–2
Presnosť Obsahuje tvrdenie konkrétne čísla/jednotky/intervaly? 0/1/2
Dôkazy Je priamo k dispozícii tabuľka/dataset + zdroje? 0/1/2
Vysvetliteľnosť Sú Q→A bloky a pravidlá rozhodovania? 0/1/2
Extrahovateľnosť Sú sekcie krátke, s ID a čistým HTML? 0/1/2
Proveniencia Sú uvedené dátumy, verzia a autor/garant? 0/1/2
Licencia Je licencia zrozumiteľná pre stroj/človeka? 0/1/2

JSON-LD príklady

Article + Dataset (výňatok):

{ "@context": "https://schema.org", "@type": "TechArticle", "headline": "Meranie hluku ventilátorov v dB(A)", "datePublished": "2025-09-15", "dateModified": "2025-10-10", "about": [{"@type":"DefinedTerm","name":"dB(A)"},{"@type":"Thing","name":"Notebook"}], "isBasedOn": [{"@type":"CreativeWork","url":"https://example.org/iso-XXXX"}], "author": {"@type": "Person","name": "Ján Novák"}, "dataset": { "@type": "Dataset", "name": "Hluk notebookov 2025", "license": "https://creativecommons.org/licenses/by/4.0/", "measurementTechnique": "A-weighted SPL @1m", "variableMeasured": "SoundPressureLevel", "distribution": [{"@type":"DataDownload","encodingFormat":"text/csv","contentUrl":"https://example.org/hluk-2025.csv"}] } }

Metodika: ako tvoriť čísla, ktoré prežijú audit

  • Publikujte protokol: zariadenia, nastavenia, počty opakovaní, štatistika.
  • Kalibrácia: uveďte referenčné merania a chyby merania nástrojov.
  • Limitácie: kde výsledok neplatí; odlíšte extrapoláciu od merania.

Citácie a bibliografia: štýl pre modely

  • Primárne zdroje uprednostnite pred sekundárnymi; pri preberaní uveďte oboje.
  • Používajte permalinky (DOI, archivované verzie) a kľúčové bibliografické polia: autor, rok, názov, vydavateľ, URL, dátum prístupu.
  • V texte pracujte s in-line citáciami (napr. [1]) a na konci sekcie zoznam referencií.

Antipatterny: čo znižuje šancu na citáciu

  • Vágne formulácie („záleží“ bez metodiky a rozsahov).
  • „Názorové“ články bez dát a odkazov na primárne zdroje.
  • Dôležité čísla len v obrázkoch/PDF bez textového ekvivalentu.
  • Časté zmeny URL a titulkov bez redirectov a verziovania.

Proces GEO: od návrhu po publikáciu

  1. Výber téz: identifikujte 5–10 „citovateľných“ tvrdení s dopadom.
  2. Evidence pack: pripravte tabuľky, dataset, metodiku, citácie.
  3. IA a HTML: sekcie s ID, Q→A, tabuľky s popismi, mikro-snippety.
  4. Metadáta: JSON-LD (Article/Dataset/Claim), OG, licencie.
  5. QA: validácia faktov, jednotiek, verzií, hreflang.
  6. Distribúcia: interné prelinkovanie na huby, príspevky so „citovateľnými kartami“.
  7. Monitoring: citácie v AIO/SGE, brand mentions, kopírovanie datasetu.

Praktické mikrošablóny

Definičný box:

<section id="definicia-inp"> <h3>INP (Interaction to Next Paint): definícia</h3> <p>INP je metrika odozvy, ktorá hodnotí najhoršiu interakciu používateľa v rámci relácie (P98). Aktualizované: 2025-10.</p> <p><small>Zdroj: W3C/web.dev; komparácia s FID v doplnkovej tabuľke.</small></p> </section>

Q→A snippet:

<div id="qa-minimal"> <p><strong>Otázka:</strong> Aký je odporúčaný limit hluku pre notebooky?</p> <p><strong>Odpoveď:</strong> Pri bežnej záťaži je < 35 dB(A) v 1 m považovaných za tiché. Metodika: A-váženie, 23 °C, pozadie < 20 dB(A).</p> </div>

Meranie úspechu GEO

  • Impresie a kliky na dopytoch „definícia/čo je/koľko/ako dlho/ktorý“.
  • Externé citácie a brand mentions s citovanými úryvkami.
  • Referencie na dataset (stiahnutia, backlinky na CSV/JSON).
  • Čas do citácie: interval medzi publikáciou a prvou zachytenou citáciou.

Kontrolný zoznam pred publikáciou

  • Má každá kľúčová téza vlastný odkaz a snippet ≤ 40 slov?
  • Sú čísla v jednotkách s rozsahmi/percentilmi a metodikou?
  • Je dostupný dataset/tabuľka + licencia?
  • Sú JSON-LD a OG polia vyplnené a validné?
  • Existuje changelog, autor a reviewedBy?

Citácia je odmena za poriadok

LLM radi citujú obsah, ktorý je presný, podložený a technicky „čitateľný“. Keď svoje tvrdenia premeníte na atomické fakty s dôkazmi, poskytnete štruktúrované dáta, stabilné URL a licencie, stávate sa prirodzeným zdrojom pre generatívne prehľady aj RAG aplikácie. GEO nie je trik – je to redakčná disciplína a technická hygiena v jednom.

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *