Autorstvo a expertnosť v GEO: prečo na nich záleží
Generative Engine Optimization (GEO) pre veľké jazykové modely neoptimalizuje iba dokumenty, ale aj signály dôvery. Najdôležitejším z nich je preukázateľná identita autora a jeho expertnosť. Pre LLM systémy sú dobre štruktúrované autorské profily, konzistentná bibliografia a prepojenie na perzistentné identifikátory (najmä ORCID) kľúčové na disambiguáciu, hodnotenie kvality a znižovanie halucinácií pri citáciách.
Základné pojmy: autorstvo, expertnosť, atribúcia
- Autorstvo: preukázateľné priradenie obsahu konkrétnej osobe alebo organizácii.
- Expertnosť: overiteľná kompetencia autora v téme (vzdelanie, prax, publikácie, granty, patentové prihlášky, vedecké dáta).
- Atribúcia: technické a textové mechanizmy, ktorými sa toto priradenie prenáša do dokumentu (metadáta, schémy, citácie, podpisy).
LLM a autor: ako modely odvádzajú dôveru z metadát
Modely získavajú z dokumentov a ich okolia štruktúrované aj nestruktúrované signály. Niektoré sú explicitné (schema.org, ORCID, DOI), iné implicitné (konzistentné meno, dlhodobá tematická stopa). GEO preto pracuje s dvoma vrstvami:
- Vrstvou reprezentácie – ako je autor a jeho dielo opísané v texte, metadátach a prepojeniach (profil, bibliografia, identifikátory).
- Vrstvou evidencie – ako sa dá tvrdenie o autorstve/odbornosti overiť (perzistentné ID, externé registre, citačné grafy, dátové sety).
Architektúra autorského profilu pre GEO
Odporúčaná štruktúra profilu, ktorý sa dá bezpečne scrapovať a indexovať LLM a vyhľadávačmi:
- Identita: celé meno (varianty), profilová fotografia s alt textom, krátka bio veta (jednovetová pozícia/špecializácia), dlhá bio (zameraná na merateľné signály: projekty, publikácie, granty).
- Perzistentné identifikátory: ORCID iD (https URI), ISNI, ROR (pre organizáciu), Scopus/Author ID, ResearcherID, Google Scholar profil (ak relevantné).
- Afiliácia: názov, ROR, oddelenie, obdobia (od–do), roly.
- Tematické vektory: 5–10 kľúčových oblastí s odkazmi na reprezentatívne práce a datasety.
- Publikácie: normalizované citácie s DOI/ISBN/PMID, prepojené na plný text alebo repozitár.
- Dáta a kód: odkazy na datasety (DOI z dátového repozitára), repozitáre kódu (commit podpisy), licencie.
- Kontakt a podpis: profesionálny e-mail (doména afiliácie), PGP alebo DKIM-stopy v newsletteroch.
ORCID ako centrálny identifikátor
ORCID iD poskytuje globálne jedinečný identifikátor pre výskumníkov a autorov. Pre GEO plní tri úlohy:
- Disambiguácia – jediné ID pre všetky varianty mena.
- Synchronizácia – import/export publikácií medzi repozitármi (Crossref, DataCite, Scopus) a webmi.
- Overenie – OAuth pre overené priradenie profilu k autorovi.
Implementačné minimum: uviesť ORCID iD ako klikateľnú URL (vrátane plnej https formy) na každej autorskej stránke a v structured data.
Bibliografické normy a konzistencia citácií
LLM citácie sa opierajú o konzistentnosť. Preto odporúčame tieto zásady:
- Perzistentné identifikátory: DOI pre články/dáta, ISBN pre knihy, arXiv ID pre preprinty.
- Štýl: používať CSL (Citation Style Language) a automatizovať formátovanie (napr. APA, IEEE, Chicago).
- Metadáta: minimálne polia – autori (normalizované mená), rok, názov, zdroj, objem/číslo, rozsah strán, DOI/URL, licencia.
- Prepojenia: každá citácia má byť klikateľná, ideálne s odkazom na záznam s DOI alebo repozitár.
Schema.org a JSON-LD pre autorov a diela
Na každej autorskej stránke a detailoch publikácií poskytujte JSON-LD:
- Person:
name,alternateName,identifier(ORCID URL),affiliation(Organization s ROR),knowsAbout,sameAs(Google Scholar, GitHub, LinkedIn, ISNI). - ScholarlyArticle | CreativeWork:
author(Person s ORCID),datePublished,isPartOf,identifier(DOI),license,about,hasPart/isBasedOnpre dáta/kód. - Dataset:
creator,distribution(formát, prístup),citation,identifier(DOI).
Expertnosť ako dátový model
Expertnosť definujte explicitne ako kombináciu:
- Kompetenčné oblasti (knowsAbout): hierarchia tém, mapovaná na ontológie (napr. ACM CCS, MeSH), plus voľné kľúčové slová.
- Výstupy (hasCreativeWork): zoznam prác s kvalitatívnymi (recenzia, Q1–Q4) a kvantitatívnymi atribútmi (citácie, altmetriky).
- Dôkazy (evidence): granty, patenty, ocenenia, pozvané prednášky, členstvá v programových výboroch.
Disambiguácia mien a variantov
Bežné riziká pri menách autorov:
- Homonymá: odlíšiť cez ORCID, afiliáciu, témy a jazyk publikácií.
- Diakritika a transliterácia: uviesť
alternateNamea pseudonymy. - Zmeny mena: vyznačiť časové intervaly a zviazať všetky varianty s rovnakým ORCID.
Prepojenie na organizácie (ROR) a projekty
Afiliácie sú silným signálom kvality. Pri každej položke uveďte:
- Názov organizácie + ROR identifikátor.
- Oddelenie/laboratórium + interné ID, ak existuje.
- Obdobie spolupráce (od–do) a rolu (postdoc, docent, vedúci projektu).
Workflow: od profilu k bibliografii a späť
- Identity: vytvorenie/overenie ORCID, prepojenie na iné registry.
- Zber: harvest z Crossref/DataCite/Scopus/GS; harmonizácia autorov, titulov, DOI.
- Normalizácia: CSL render, doplnenie licencií a persistentných URL.
- Publikácia: generovanie statického profilu s JSON-LD a sitemaps.
- Validácia: kontrola so štruktúrovanými testermi a internými pravidlami.
- Synchronizácia: push do ORCID rekordov a do inštitucionálnych repozitárov.
Pravidlá pre citovanie dát a kódu
- Datasety citovať ako Dataset s DOI, uvedením verzie a dátumu vydania.
- Kód citovať cez Software záznam: verzia (tag), licencovanie, archivácia v repozitári s DOI (napr. Zenodo integrácia s GitHub).
- V publikácii uviesť isBasedOn pre dátové a softvérové závislosti.
Merania a KPI pre GEO autorstva
- Pokrytie identifikátorov: % publikácií s DOI/ISBN/PMID, % autorov s ORCID.
- Validita JSON-LD: % strán bez chýb a varovaní.
- Disambiguácia: miera kolízií mien pred/po zavedení ORCID.
- Indexovateľnosť: čas do re-indexácie po aktualizácii profilu.
- LLM retrievability: úspešnosť vyhľadania autora podľa tém a citácií v RAG testoch.
Praktické zásady pre autorské profily
- Jedna kanonická URL na autora, všetky ostatné varianty s
rel="canonical"alebo 301. - „About“ sekcia písať vecne, s konkrétnymi výsledkami namiesto marketingu.
- Každá publikácia má vlastnú stránku s metadátami a prepojením na plný text.
- Pravidelný harvest a deduplikácia z externých zdrojov; uchovávať originálne identifikátory.
Integrácia s RAG a vnútornými vyhľadávačmi
Pre interné LLM a RAG je dôležitá chunkovateľnosť a rozlíšiteľnosť autorov:
- Držať profily a publikácie v samostatných indexoch s odkazmi cez ID.
- Ukladať aj strojovo čitateľné zhrnutia (structured abstracts) a tematické vektory.
- Používať author-aware reranking – preferovať obsah od overených autorov v témach, v ktorých majú publikácie.
Riadenie kvality a kurátorská vrstva
Automatizácia nepostačuje. Zaviesť kurátorské kontroly:
- Prijímanie zmien: dvojstupňové – strojová validácia + kurátor.
- Audity: kvartálne kontroly náhodnej vzorky profilov a citácií.
- História: verzovanie profilov a publikácií, zmenové logy.
Súkromie a súlad
- Publikovať iba pracovné kontakty a údaje potrebné na atribúciu.
- Rešpektovať licencie datasetov a embargá.
- Poskytnúť autorom samoobslužný nástroj na opravy a skrytie údajov citlivého charakteru.
Medzijazykové a kultúrne špecifiká
- Udržiavať varianty mien s diakritikou aj bez nej.
- Prekladať kľúčové časti profilu (bio, oblasti) a viazať ich na rovnaké identifikátory.
- Normalizovať dátumy (ISO 8601) a menné poradie (priezvisko/meno) podľa konvencie citácií.
Edge cases a časté chyby
- Duplicitné publikácie z rôznych zdrojov – riešiť cez DOI a fuzzy match titulov.
- Zmeny afiliácie bez časového intervalu – vždy uviesť from–to.
- Neaktuálne profily bez ORCID – priorita je získať ORCID alebo ISNI.
- „Mŕtve“ odkazy – pravidelné link-checky a archivácia (napr. perma.cc v metadátach).
Implementačný checklist
- Zriadiť ORCID pre autorov a prepojiť OAuth.
- Vytvoriť autorské stránky s JSON-LD (Person) a kanonickou URL.
- Znormalizovať bibliografiu (CSL), doplniť DOI/ISBN/PMID.
- Pre dataset/kód pridať Dataset/Software záznamy s DOI/verziou.
- Prepojiť afiliácie na ROR, organizácie na Organization.
- Nastaviť harvesting (Crossref/DataCite) a deduplikáciu.
- Validovať štruktúrované dáta a sitemap.
- Spustiť kurátorské audity a monitorovanie KPI.
Príklady informačných polí v profile (model)
- Meno: „Mgr. Jana Nováková, PhD.“ | alternateName: „J. Novakova“
- ORCID
- Afiliácia: „Univerzita X, Katedra informatiky (ROR: 05abcde12)“
- Oblasti: „NLP“, „GEO“, „Vedecké metadáta“
- Publikácie: normalizované záznamy s DOI a odkazmi
- Datasety: DOI, verzia, licencia
Mini šablóna JSON-LD (logická štruktúra)
Nižšie je ilustračný výpis polí (nie kompletný kód):
- Person:
name,alternateName,identifier(ORCID),affiliation(Organization+ROR),sameAs,knowsAbout - ScholarlyArticle:
author(Person),identifier(DOI),datePublished,isBasedOn(Dataset/Software),license - Dataset/Software:
creator,version,identifier(DOI),citation,license
Komunikácia expertnosti v texte
Okrem metadát má byť aj samotný text dôkazný: jasne uviesť metodiky, dátové zdroje, obmedzenia a odkazy na otvorené dáta. Štýl má byť vecný, auditovateľný a minimalizovať „marketingové“ formulácie.
Budovanie dlhodobej reputácie
- Konzistentne aktualizovať profily a bibliografiu.
- Publikovať replikovateľné výstupy (dáta, kód, protokoly).
- Udržiavať spojitú tematickú stopu a prepojenie na komunitu (programové výbory, recenzie).
Autorstvo a expertnosť sú v GEO rovnako dôležité ako samotný obsah. Pre LLM znamenajú kvalitné metadáta menej nejasností, vyššiu presnosť atribúcie a lepšie odpovede. Investícia do profilov, bibliografie a ORCID integrácie je preto nevyhnutnou súčasťou moderného publikačného a dátového ekosystému.