Sentiment Analýza: Emocie v dátach – Ekonomická encyklopédia

Čo je sentiment analýza a prečo je dôležitá

Sentiment analýza (SA) je súbor metód na automatické určovanie postoja, emócie alebo polarity v texte (pozitívny, negatívny, neutrálny) prípadne na jemnejšej škále (napr. –2 až +2). S rozvojom sociálnych sietí, zákazníckych recenzií a konverzačných platforiem sa stala kľúčovou pre marketing, zákaznícku skúsenosť, produktový vývoj, finančné trhy, politológiu a monitorovanie reputácie. Moderné prístupy idú za poz/neg k aspektovej a intenzitnej analýze, viacjazyčnosti a kombinácii textu s inými modalitami (obraz, audio).

Úrovne a typy sentimentu

Granularita: dokument → veta → fráza/token → aspekt (napr. batéria telefónu).
Typy výstupu: binárny/ternárny sentiment, skóre polarity (regresia), emócie (radosť, hnev, strach…), postoj k subjektu (targeted sentiment), intenzita.
Kontextová väzba: target-dependent (k čomu sa výrok vzťahuje) a stance detection (postoj k téme bez explicitného mena).

Use-cases naprieč odvetviami

Voice of Customer (VoC): agregácia recenzií, chatov, NPS komentárov; mapovanie bolestí a wow momentov.
Brand & reputácia: monitoring sociálnych sietí, krízová komunikácia, identifikácia virálnych vĺn.
Produkt & UX: aspektová SA pre backlog; prioritizácia podľa impact × sentiment × frekvencia.
Financie: správy a príspevky investorov; sentimentové alfa signály (s opatrnosťou).
HR & interná komunikácia: pulzové prieskumy, anonymné spätné väzby (eticky, so súkromím).

Výzvy prirodzeného jazyka (najmä slovenčina a viacjazyčnosť)

Morfologická bohatosť: skloňovanie, časovanie a voľný slovosled sťažujú pravidlá i slovníky.
Negácie a zosilňovače: nie je vôbec zlé, fakt super, ani trochu → menia polaritu a intenzitu.
Sarkazmus a irónia: Skvelé, ďalší pád appky. – pozitívny povrch, negatívny zámer.
Emoji, slang, kód-mixing: 🔥, meh, cringe, rip; kombinácie SK/CZ/EN.
Doménové posuny: slová s pozitívnou konotáciou v jednej doméne a negatívnou v inej (napr. agresívny dizajn vs. agresívny útočník).

Typický spracovateľský pipeline

Ingest a normalizácia: deduplikácia, jazyková detekcia, segmentácia na vety.
Predspracovanie: tokenizácia citlivá na diakritiku, lematizácia, rozpoznanie entít/targetov, handlovanie URL/emoji.
Feature engineering alebo embedovanie: TF-IDF, n-gramy, kontextové vektory (BERT/SlovakBERT/multilingual).
Modelovanie: od lexikónov po transformery a/alebo few-shot s veľkými jazykovými modelmi (LLM).
Post-processing: kalibrácia pravdepodobností, agregácia na aspekty, pravidlá pre negáciu a intensifikátory.
Monitorovanie a spätná väzba: drift, aktívne učenie, ľudská verifikácia na vzorke.

Metódy: od pravidiel po transformery

Pravidlá a slovníky: ručne/automaticky zostavené zoznamy pozitívnych/negatívnych slov + heuristiky (negácia, zosilňovače). Nízke náklady, vyššia krehkosť a doménová závislosť.
Klasika ML: logistická regresia, SVM, náhodné lesy nad n-grammi/char-grammi; často prekvapivo silné na špecifickej doméne s menom dát.
Hlboké učenie: CNN/LSTM/GRU pre sekvencie; lepšie zachytávajú lokálne vzory, no slabšie globálny kontext.
Transformery: BERT-rodina (mBERT, XLM-R), doménové a jazykové varianty (SlovakBERT), promptované LLM pre zero/few-shot.
Hybridy: lexikón ako funkcia alebo prior v neurónovej sieti; pravidlá na okrajové prípady (negácia, sarkazmus trigger).

Aspektová sentiment analýza (ABSA)

ABSA rozkladá text na aspekty (vlastnosti objektu) a im priradené polarity. Príklad: Fotoaparát je skvelý, ale batéria slabá. → {fotoaparát: +, batéria: –}. Architektúra často kombinuje aspect term extraction (sekvenčné tagovanie) a targeted sentiment (klasifikácia s pozornosťou na kontext aspektu). Výstup je najhodnotnejší pre produktové backlogy a root-cause analýzy.

Vyhodnocovanie: metriky a validácia

Úloha	Metriky	Poznámka
Klasifikácia polarity	Accuracy, Macro F1, Confusion matrix	Macro F1 je vhodnejšie pri nevyvážených triedach
Regresia skóre	MAE/MSE, Pearson/Spearman	Kalibrácia je kľúčová pre skórové dashboardy
ABSA – extrakcia aspektov	Precision/Recall/F1 na úrovni termov	Hodnotiť exact match aj partial
ABSA – polarita aspektu	Macro F1 per aspekt	Vyžaduje zladené zlaté štítky

Dáta: anotácia, kvalita a zber

Štítkovanie: viacnásobní anotátori, Cohenovo κ/α pre zhodu, guidelines s príkladmi sarkazmu a negácie.
Neutrálny kôš: nekomentované fakty (tracking info, dátumy) držať mimo polarity.
Imbalancia: minoritné triedy posilniť cieleným zberom, focal loss/váhy, data augmentation (parafrázy, synonymá, preklady).
Weak supervision: pravidlá/lexikóny ako slabé labely → následné denoising.
Aktívne učenie: iteratívne označovanie najneistejších vzoriek; rýchly nárast kvality pri nižších nákladoch.

Špecifiká slovenského prostredia

Tokenizácia a lematizácia: využitie nástrojov trénovaných na slovanských jazykoch; pozor na zámenu i/y, dĺžne a diakritiku v user-generated texte.
Viacjazyčnosť: častý mix SK/CZ/EN (appka crashla, support nič); vhodné sú multilingual modely alebo jazykové routovanie.
Doménové slovníky: retail (dodanie, reklamácia), telco (signál, dáta), banky (poplatky, appka), verejná správa (fronta, úradník).

Vysvetliteľnosť a dôvera

Lokálne vysvetlenia: LIME/SHAP, integrated gradients; zoznam tokenov a ich príspevky k polarite.
Globálne pohľady: najvplyvnejšie n-gramy/aspekty v čase, posuny po releasoch produktu.
Kalibrácia: temperature scaling, reliabilitné krivky; vyhnúť sa tvrdým prahom bez kalibrácie.

Etika, súkromie a zaujatosť

Bias a spravodlivosť: pozor na proxy znaky (geografia, mená); sledovať error rate naprieč segmentmi.
Súkromie: pseudonymizácia citlivých entít (mená, ID, adresy); minimalizácia retenčných období.
Transparentnosť: jasné informovanie o použití SA pri prieskumoch a sociálnom zbere; rešpektovanie podmienok platforiem.

Nasadenie a MLOps

Architektúra: streaming (Kafka) → spracovanie (spaCy/transformer) → ukladanie (time-series + vektorový index) → dashboard (BI).
Monitoring: latencia, chybovosť, distribučný drift embeddingov, posun slovníka (nové tvary, slang), feedback slučka.
Experimenty: A/B testy rozhodnutí založených na SA (prioritizácia ticketov), nie len offline metriky.
Cost-to-serve: kvantizácia/distilácia transformerov, batching, cache; hybridné routovanie (pravidlá → malý model → veľký model).

KPI programu sentiment analýzy

KPI	Definícia	Prečo záleží
Macro F1	priemer F1 naprieč triedami	robustnosť pri nevyváženosti
Calibration error	ECE/MCE po nasadení	dôvera v skóre a prahy
Coverage @ confidence	% prípadov nad prahom istoty	automatizovateľná časť rozhodnutí
VoC Impact	# uzavretých root-cause na základe ABSA	väzba na biznis výsledky
Time-to-insight	median od eventu k dashboardu	operatívna použiteľnosť

Sarkazmus, negácia a pragmatika: praktické techniky

Negácia: okná na prevrátenie polarity (nie, ani, bez) + scope detection (ktoré slová negácia ovplyvňuje).
Sarkazmus: špeciálne featury (emotikony, guillemets ), trénovanie na dátach so sarkazmom; contrastive learning medzi pozitívnou formou a negatívnym kontextom.
Intenzifikátory/zmierňovače: veľmi, trochu, úplne, takmer → váhovanie v logitickom priestore.

LLM a prompt-based sentiment

Zero/Few-shot: inštrukčný prompt so škálou, príkladmi a definíciami edge cases.
Chain-of-thought (skryté pre používateľa): model lepšie rieši negácie a sarkazmus, no treba obmedziť halucinácie kontrolou výstupu (povolené štítky, formát JSON).
Guardrails: validácia formátu, rekonštrukcia prázdnych/neurčitých odpovedí do neutrál.

Multimodálna sentiment analýza

Pri videách/streame hrá rolu hlas (prosódia), obraz (mimika) a text (titulky). Late fusion kombinuje modality na rozhodovacej vrstve; early fusion spája embeddingy. V praxi sa často začína textom a postupne sa pridáva audio pre contact center use-case.

Roadmapa implementácie (0–12 mesiacov)

0–60 dní: definícia cieľov (kde SA mení rozhodnutie), výber kanálov dát, baseline s jednoduchým modelom, návrh anotácie.
60–120 dní: ABSA pre top 5 aspektov, tréning transformeru/LLM routovanie, kalibrácia a dashboard s intervalmi neistoty.
120–210 dní: aktívne učenie, zlepšenie na minoritných triedach, vysvetliteľnosť a audit fairness.
210–365 dní: MLOps hardening (monitoring driftu), A/B test rozhodnutí, rozšírenie na nové jazyky/kanály.

Syntetické príklady (ilustrácia)

Vstup	Cieľ	Výstup
Dodanie prišlo skôr, ale balenie otrasné.	ABSA	{dodanie:+0.8, balenie:–0.7}
Skvelé, appka znova spadla 🙃	Sarkazmus	globálny sentiment: –0.9 (detekovaný sarkazmus)
Nie je to úplne zlé.	Negácia + zmiernenie	+0.1 (slabý pozitívny)

Integrácia s biznis procesmi

Support/Tickets: prioritizácia nespokojných s vysokou hodnotou; automatické sumarizácie pre agentov.
Produkt: mesačné ABSA heatmapy → backlog; closing the loop s meraním vplyvu fixov na sentiment.
Marketing: detekcia kampaní s negatívnym ohlasom v reálnom čase; úprava kreatív a kanálov.

Najčastejšie chyby a ako ich predchádzať

Preceňovanie accuracy: optimalizujte Macro F1 a kalibráciu; sledujte business lift.
Ignorovanie neutrálu: neutrály sú dôležité pre triáž; nesťahujte prah príliš nízko.
Bez doménovej adaptácie: transfer learning + malé doménové fintuningy často prinášajú veľký zisk.
Jednorazový projekt: SA je proces s driftom jazyka; nastavte priebežné učenie a audit.

Zhrnutie

Moderná sentiment analýza je viac než jednoduché pozitívne vs. negatívne. Spojuje lingvistiku, strojové učenie, experimentálny dizajn a MLOps, aby dodala praktické rozhodovacie signály – od aspektovej spätnej väzby po krízové monitorovanie. Kľúčom je jasný cieľ použitia, kvalitné dáta a priebežná validácia v produkcii. Organizácie, ktoré tieto prvky zvládnu, získajú rýchlejší a presnejší kompas zákazníckej skúsenosti a reputácie.