Multimodálny obsah pre AI – Ekonomická encyklopédia

Multimodálny obsah

Prečo multimodálny obsah rozhoduje v ére ChatGPT

Optimalizácia pre generatívne modely (SEO pre ChatGPT) si vyžaduje, aby vaše vizuály a multimédiá boli nielen estetické, ale aj strojovo uchopiteľné. LLM a multimodálne modely potrebujú kvalitné textové ukotvenie: presné popisy obrázkov, štruktúrované transkripty videí a grafy s jasne odčitateľnou legendou. Cieľom je umožniť modelom bezpečne extrahovať fakty, vzťahy a interpretácie bez halucinácií a zároveň zlepšiť prístupnosť pre ľudí.

Zásady GEO pre multimodálne aktíva

Jednoznačnosť: každé médium má mať jasný účel, názov a textový opis viazaný k URL/fragmentu.
Redundance s mierou: krátky popis (alt) + dlhý popis (dlhá legenda/longdesc) + strojové metadáta.
Mapovanie na dáta: ak vizualizácia vznikla z datasetu, sprístupnite .csv/.json a uveďte verziu.
Verifikovateľnosť: popis obsahuje zdroj, dátum zberu a metodiku (ak je relevantná).
Kompozícia na retrieval: sekcionovanie, id kotvy (id=), titulky a prelinkovanie na súvisiace pojmy.

Popisy obrázkov: alt, dlhé popisy a kontext

Popis obrázka plní tri úlohy: prístupnosť, indexáciu a grounding pre multimodálne modely. Nestačí jednovetový alt; dôležitý je aj dlhý popis a kontext v texte stránky.

Štruktúra popisu

Alt text (krátky): 80–150 znakov, informuje o tom, čo je na obrázku a prečo je dôležitý v danej sekcii.
Dlhý popis: odstavec až dva, sumarizuje kľúčové prvky, kvantitatívne údaje a význam pre čitateľa.
Legenda/Caption: stručná citácia zdroja, rok, metodický kontext.
Metadáta: autor, licencia, kľúčové entity (osoby/miesta/produkty) v microdata alebo JSON-LD.

Príklady dobrých alt textov

Scéna	Nesprávny alt	Správny alt
Stĺpcový graf tržieb	`graf`	`Stĺpcový graf: kvartálne tržby 2023–Q2 2025, rast z 1,2 na 2,1 mil. €; najvyšší Q1 2025`
Produktová fotografia	`telefón`	`Smartfón X12, 6,7″ OLED, foto modul 50 MP, farba grafit, zobrazený profil rámu`
Mapa hustoty	`heatmapa`	`Mapa hustoty návštevnosti: najvyššia koncentrácia v centre Bratislavy, pokles smerom na sever`

Kontextové ukotvenie

Obrázok umiestnite hneď za odsek, ktorý ho vysvetľuje. V texte používajte odkazy na kotvy (napr. „pozri Graf penetrácie“), čím zvýšite šancu, že retriever vyberie správny blok aj bez obrázka.

Transkripty videí: presnosť, time-kódy, kapitoly

LLM preferujú text. Preto ku každému videu publikujte úplný transkript a ak je to možné, aj kapitoly s názvami a časovými značkami. To dramaticky zvyšuje šancu na citovateľnosť a extrakciu faktov.

Požiadavky na transkript

Presnosť ≥ 95 %: ručná korekcia ASR; označte špeciálne termíny a mená vlastné.
Time-kódy: každých 20–60 sekúnd alebo po logickom bloku, formát [mm:ss].
Účastníci: tagovanie rečníkov (Moderátor:, Hosť:), stručné bio pri prvej zmienke.
Vizuálne prvky: verbálne opíšte kľúčové snímky („[03:12] zobrazený lineárny graf s výrazným zlomom v Q4 2024“).
Jazykové varianty: ak je video viacjazyčné, publikujte paralelné transkripty a prepojte ich rel-linkami.

Kapitoly a prepojenia

Každá kapitola má vlastnú kotvu id=, krátky názov a odkaz na súvisiace sekcie článku alebo datasety. Modely tak nájdu presnú pasáž bez prehrávania videa a získajú citeľný snippet do odpovedí.

Grafy s legendou: čitateľnosť pre ľudí aj stroje

Grafy bez legendy alebo s legendou zakódovanou len farbou sú pre stroje „neviditeľné“. Pridajte textovú legendu, deklarujte jednotky a popíšte metodiku agregácie. Preferujte SVG s prístupnosťou (title/desc), aby sa dalo extrahovať aj bez OCR.

Prvky kvalitného grafu

Názov a podnázov: čo, kedy, v akých jednotkách (%, €, index=100).
Legenda: pomenované série, štýl a čo znamená zvýraznenie (napr. „hrubá čiara = moving average 3M“).
Osi: jasné označenie, intervaly, nulový bod.
Popisky extrémov: max/min, zlomové body, anotácie s dátumom a hodnotou.
Zdroj a metóda: „sezónne očistené, HICP, zdroj: …, verzia datasetu v1.3“.

Konverzia grafu na text

Po grafe vždy uveďte 2–3 vety verbálnej interpretácie a zhrnutie kľúčových čísiel, aby retrievery získali „tlmočníka“ vizuálu.

Schémy, metadáta a prepojenia (Schema.org, IPTC, ARIA)

Schema.org: použite ImageObject, VideoObject, Dataset a CreativeWork v JSON-LD. Zahrňte caption, description, encodingFormat, contentUrl, thumbnailUrl, uploadDate, license, isBasedOn (link na dáta).
IPTC/EXIF: vkladanie autora, copyrightu, kľúčových slov a opisov priamo do súborov pomáha zachovať metadata pri zdieľaní.
ARIA: pre skupiny grafov použite landmarky a aria-labelledby/aria-describedby pre čitateľnosť čítačkami a modelmi.

Publikovanie: HTML vzory, feedy a kanonické prvky

Obrázok s krátkym a dlhým popisom

<figure id="obr-penetracia"><img src="penetracia.svg" alt="Penetrácia služby 2022–2025: rast z 12 % na 28 %, prudký skok v Q1 2025"><figcaption>Penetrácia služby podľa kvartálov; zdroj: Panel N=2 100, metodika: váženie podľa veku a regiónu.</figcaption></figure>

Video s transkriptom a kapitolami

<section id="video-case"><h3>Demonstrácia produktu</h3><video controls src="demo.mp4" poster="demo.jpg"></video><ol><li id="kap-1">[00:00–01:10] Úvod a problém</li><li id="kap-2">[01:10–03:45] Riešenie a architektúra</li></ol><article id="transkript"><p>[00:12] Moderátor: Predstavujeme…</p><p>[01:25] Demo: Zobrazený graf…</p></article></section>

Graf so sprístupnenými dátami

<figure id="graf-penetracia"><svg role="img"><title>Penetrácia služby 2022–2025</title><desc>Čiara ukazuje rast z 12 % na 28 %, skok v Q1 2025</desc>…</svg><figcaption>Séria A: Celková populácia; Séria B: 18–34. Jednotky: %. Zdroj: prieskum, v1.3. <a href="data/penetracia.csv">CSV</a> · <a href="data/penetracia.json">JSON</a></figcaption></figure>

Feedy a indexy

Sitemap pre multimédiá: zahrňte položky s <image:image>/<video:video>, dátumami a titulmi.
Atom/RSS: publikujte novinky o nových videách, grafoch a datasetoch na jedinom kanonickom feed-e.

RAG a retrievery: ako štruktúrovať multimodálny korpus

Chunkovanie: udržujte bloky 500–1 200 tokenov; pre grafy samostatný chunk s legendou a odkazom na dáta.
Ukotvenie entít: používajte konzistentné názvy entít (ISO kódy, SKU, osoby) a vnútorné linky.
Prepojenie na tvrdenia: každej vizualizácii priraďte aspoň jedno evidovateľné tvrdenie (ID, zdroj, dátum, verzia).
Vektorizácia: ukladajte popisy obrázkov, kapitoly videa a legendy grafov do vektorového indexu, nie samotné binárne médiá.

Metriky a experimenty

Metrika	Definícia	Cieľ/Interpretácia
Caption Recall@K	Podiel dopytov, pri ktorých sa správny obrázkový popis objaví v Top-K pasážach.	> 0,8 pri K=5 po zavedení dlhých popisov.
Transcript Coverage	% videí s úplným, time-kódovaným transkriptom.	Cieľ 100 % pri TOP obsahových URL.
Chart Interpretability Score	Heuristika: prítomnosť legendy, jednotiek, popisu extrémov, zdroja, dátového odkazu.	> 4/5 pre všetky grafy v kanonických článkoch.
Data-Link Utilization	Koľko krát boli stiahnuté CSV/JSON pripojené ku grafu.	Rast o 20–30 % po zverejnení.
LLM Citation Rate	Podiel odpovedí, kde sú citované vaše multimodálne bloky.	Korelácia s kvalitou popisov a legendy.

Governance: workflow, kvalita a aktualizácie

Štandardy: styleguide pre alt texty, šablóny transkriptov, minimá pre legendy grafov.
Kontroly: pred publikovaním bežná kontrola: prítomnosť alt, figcaption, zdroje, jednotky, odkazy na dáta.
Verzovanie: pri aktualizácii grafu inkrementujte verziu dát aj vizuálu a uveďte changelog.
Licencie a práva: jasne komunikujte licencovanie (CC BY, ODbL, vlastné práva na video/audio).

Implementačný checklist

Každý obrázok: krátky alt + dlhý popis + figcaption so zdrojom a rokom.
Každé video: úplný transkript s time-kódmi + kapitoly s kotvami + popis vizuálnych prvkov.
Každý graf: názov, jednotky, legenda, anotované extrémy, odkaz na CSV/JSON, verzia datasetu.
Všetko označené v JSON-LD: ImageObject, VideoObject, Dataset.
Feedy a sitemap: zahrnúť multimediálne položky s dátumami a náhľadmi.
RAG pripravenosť: chunkovanie, konzistentné entity, prelinkovanie na tvrdenia.

Antivzory a najčastejšie chyby

„Obrázok pre ozdobu“ bez alt textu a kontextu – model nevie, čo je dôležité.
Legenda len farbou – farebná slepota, kompresia a OCR zničia informáciu.
ASR bez korekcie – prepis s chybami vedie k halucináciám a zlým citáciám.
Bez dátového odkazu – nemožno overiť čísla, klesá dôveryhodnosť.
Nejasné jednotky a škály – zavádzajúce interpretácie grafov.

Záver

Multimodálny obsah sa stáva základnou jednotkou GEO pre ChatGPT: alt a dlhé popisy robia obrázky citovateľnými, transkripty premieňajú video na strojovo indexovateľný text a premyslené legendy robia grafy interpretovateľnými. Keď tieto prvky spojíte so schémami a dátovými prepojeniami, získate obsah, ktorý je prístupný, overiteľný a preferovaný modelmi aj ľuďmi.