Supervizované vs. nesupervizované – Ekonomická encyklopédia

Dvě paradigmata učení z dat

Supervizované a nesupervizované učení představují základní přístupy strojového učení. Supervizované učení pracuje s párovanými příklady (vstup, výstup/štítek) a učí se predikovat výstupní proměnnou. Nesupervizované učení pracuje pouze s nevštítkovanými daty, snaží se odhalit vnitřní strukturu, latentní faktory a vztahy. Obě paradigmata lze kombinovat (semi-supervizované, self-supervised, weak supervision) a často sdílejí podobné modely s odlišným cílem optimalizace.

Formální definice úloh

Supervizované učení: daná množina dvojic \{(x_i, y_i)\}_{i=1}^n, kde x_i jsou vstupy a y_i cíle (diskrétní u klasifikace, spojité u regrese). Cílem je nalézt funkci f: \mathcal{X} \to \mathcal{Y}, která minimalizuje očekávanou ztrátu \mathbb{E}[\ell(f(x), y)].
Nesupervizované učení: daná množina \{x_i\}_{i=1}^n bez štítků. Cílem je odhalit strukturu dat: shluky, dimenzionalitu, hustotu p(x), anomálie nebo reprezentace z = g(x), které komprimují informaci.

Typické úlohy a příklady použití

Paradigma	Úloha	Popis	Příklad
Supervizované	Klasifikace	Přiřazení třídy	Detekce spamu, rozpoznání obrazu kočka/pes
Supervizované	Regrese	Predikce spojité hodnoty	Odhad ceny nemovitosti, predikce poptávky
Supervizované	Řazení (ranking)	Uspořádání dle relevance	Vyhledávače, doporučování
Nesupervizované	Shlukování	Skupiny podobných vzorků	Segmentace zákazníků
Nesupervizované	Snížení dimenze	Projekce do menšího prostoru	Vizualizace, předzpracování
Nesupervizované	Detekce anomálií	Odchylky od „normálu“	Podvody, poruchy strojů
Nesupervizované	Modelování hustoty	Odhad p(x)	Generativní modely, syntetická data

Algoritmy: přehled hlavních zástupců

Supervizované: lineární a logistická regrese, SVM, náhodné lesy a gradient boosting (XGBoost/LightGBM/CatBoost), neuronové sítě (CNN, RNN/Transformers), k-NN, Naivní Bayes.
Nesupervizované: k-means/k-medoids, hierarchické shlukování, DBSCAN/HDBSCAN, GMM, PCA/ICA/FA, t-SNE/UMAP (vizualizace), autoenkodéry, word2vec/contrastive learning (self-supervised reprezentace).

Ztrátové funkce a optimalizace

Supervizované: MSE/MAE (regrese), log-loss/cross-entropy (klasifikace), hinge loss (SVM), focal loss (nevyvážené třídy), pairwise/listwise loss (ranking). Optimalizace nejčastěji gradientní metody (SGD, Adam, L-BFGS), u stromů aditivní boosting.
Nesupervizované: inertiální kritérium k-means (součet čtverců vzdáleností), silueta/DB index pro výběr k; pro PCA minimalizace rekonstrukční chyby/maximalizace vysvětlené variance; u autoenkodérů rekonstrukční loss (L2, BCE) a případně regularizace (KL u VAE).

Hodnocení výkonu: metriky a validace

Supervizované: přesnost, precision/recall/F1, ROC-AUC/PR-AUC, RMSE/MAE/R², log-loss; k-fold křížová validace, stratifikace, časové rozdělení u time-series. Důraz na generalizaci a test na nezáviském hold-outu.
Nesupervizované: interní metriky (silueta, Calinski-Harabasz, Davies-Bouldin), externí metriky při dostupnosti částečných štítků (Adjusted Rand Index, Normalized Mutual Information), rekonstrukční chyba, pravděpodobnostní kritéria (BIC/AIC u GMM), stability-based metody.

Datové požadavky a náklady na anotaci

Supervizované učení vyžaduje kvalitní štítky, jejichž získání je nákladné (čas expertů, nekonzistence, bias). Nesupervizované učení škáluje na velké objemy raw dat, ale interpretace výstupů a volba hyperparametrů je náročnější. V praxi se uplatňuje semi-supervised přístup: využití malého množství štítků k nasměrování reprezentací naučených na neštěítkovaných datech.

Předzpracování a inženýrství příznaků

Škálování a normalizace: standardizace (z-score), min-max; klíčové pro metody založené na vzdálenosti (SVM, k-means) a gradientní učení.
Kategorizace: one-hot, target encoding (pozor na únik informace, nutná CV), embeddingy.
Snížení dimenze: PCA/UMAP pro odstranění šumu, rychlost a zlepšení separability; v supervizovaném scénáři i LDA.
Výběr příznaků: filtrační (mutual information), zabudované (L1/L2, feature importance ze stromů), wrappery (RFE).

Shlukování vs. klasifikace: koncepční rozdíly

Klasifikace (supervizované): naučené hranice mezi třídami; umožňuje pravděpodobnostní výstupy a kvantifikaci nejistoty.
Shlukování (nesupervizované): hledá přirozené skupiny podle podobnosti; výsledek nemusí odpovídat lidským kategoriím. Volba metriky vzdálenosti a škály má zásadní vliv.

Generativní vs. diskriminační pohled

Supervizované metody bývají často diskriminační (modelují p(y|x)), kdežto nesupervizované/část generativních modelů odhaduje p(x) nebo společně p(x, y). Generativní přístup umožňuje syntézu dat, imputaci chybějících hodnot, detekci anomálií a aktivní učení, ale vyžaduje náročnější učení (např. VAE, normální toky, difuzní modely).

Výběr modelu a hyperparametrů

Supervizované: grid/random search, Bayesovská optimalizace, validace s časovým dělením u sekvencí; early stopping, regularizace (L1/L2, dropout), kalibrace pravděpodobností (Platt/Isotonic).
Nesupervizované: výběr k (k-means) pomocí lokte/siluety, epsilon/minPts (DBSCAN) dle hustoty; u PCA volba počtu komponent dle vysvětlené variance.

Interpretovatelnost a vysvětlitelnost

Supervizované: globální (koeficienty lineárních modelů, feature importance), lokální (LIME/SHAP, counterfactuals), reliabilita (kalibrace).
Nesupervizované: popis shluků prototypy/centroidy, zatížení komponent u PCA, vizualizace (t-SNE/UMAP), rekonstrukční mapy u autoenkodérů.

Nevyvážená data, šum a anomálie

Supervizované: re-vážení ztráty, oversampling (SMOTE), undersampling, cost-sensitive učení, thresholding podle PR-AUC.
Nesupervizované: robustní metriky, metody založené na hustotě (LOF), izolace stromů (iForest), autoenkodéry s vysokou rekonstrukční chybou pro odlehlé body.

Pipeline a nasazení v praxi

Definice cíle: predikovat y (supervizovaně) nebo získat reprezentace/segmenty (nesupervizovaně).
Data management: sběr, čištění, deduplikace, správa verzí dat a štítků.
Feature store & experiment tracking: opakovatelnost, audit, MLOps.
Trénink & validace: správná schémata CV, metriky vázané na obchodní cíle.
Nasazení: online/ batch inference, monitoring driftu (datového i konceptuálního), re-trénink.

Bezpečnostní a etické aspekty

Bias a fairness: u supervizovaného učení může být bias „v pečeti“ štítků; nutná auditovatelnost a fairness metriky.
Soukromí: u nesupervizovaných reprezentací pozor na re-identifikaci; zvažte DP (differential privacy) a anonymizaci.
Robustnost: odolnost vůči adversariálním vstupům, kontaminovaným štítkům i outlierům.

Srovnání výhod a omezení

Kritérium	Supervizované učení	Nesupervizované učení
Požadavky na data	Vyžaduje štítky (nákladné)	Bez štítků (snadná škálovatelnost)
Vyhodnocení	Jednoznačné metriky, snadná validace	Obtížnější, často nepřímé metriky
Interpretace	Často lepší, zejména u jednodušších modelů	Závislá na volbě metody a metrik
Obecnost výstupu	Specifická predikce cíle	Obecná struktura a reprezentace
Citlivost na šum	Citlivé na chybné štítky	Citlivé na škálování a metriky podobnosti
Nasaditelnost	Přímočará pro business cíle	Užitečné pro průzkum a předzpracování

Překlenutí mezery: semi-supervizované a self-supervised

Semi-supervised: kombinuje malé množství štítků s velkým neoznačeným korpusem (pseudo-labeling, consistency regularization, graph-based label propagation).
Self-supervised: vytváří pretext úlohy ze samotných dat (maskování částí vstupu, kontrastivní učení). Naučené reprezentace se následně doladí malým množstvím štítků.

Praktická doporučení pro volbu přístupu

Pokud máte kvalitní štítky a jasný KPI, preferujte supervizované učení s robustní validací.
Při průzkumu neznámé domény, segmentaci, detekci anomálií nebo předzpracování zvažte nesupervizované metody.
Když jsou štítky vzácné, využijte semi-/self-supervised pre-trénink a poté lehké supervizované doladění.
Nezapomeňte na MLOps: versioning dat a modelů, monitoring driftu, re-tréninkové politiky.

Časté chyby a jak se jim vyhnout

Únik informace (leakage): míchání trénovacích a validačních dat, použití target encodingu bez správné CV.
Přeučení (overfitting): nedostatečná regularizace, absence early stopping, příliš složitý model vůči velikosti dat.
Špatná metrika: optimalizace accuracy u nevyvážených tříd; volte PR-AUC, F1, cost-sensitive ztráty.
Nesprávná volba vzdálenosti: u shlukování bez škálování příznaků; zvažte kosinovou/mahalanobisovu metriku.
Přehnané spoléhání na vizualizace: t-SNE/UMAP jsou pro vizualizaci, nikoli pro metrické závěry o separabilitě.

Závěr

Supervizované učení exceluje tam, kde známe cíle a máme štítky; nesupervizované je klíčové pro objevování struktury, redukci dimenze, detekci anomálií a učení reprezentací. V moderní praxi se hranice stírá díky semi- a self-supervizovaným metodám, které využívají masivní neoznačená data a malý počet štítků. Klíčem k úspěchu je správná formulace úlohy, volba metrik, pečlivá validace a provozní disciplína (MLOps), které zajistí, že modely budou nejen přesné, ale i odolné, spravedlivé a udržitelné.

Peter K. komentoval priama kalkulačná metóda
Branko Laska komentoval závod – výrobné oddelenie, výrobná skupina
Štiko komentoval Asertivita
traveltocityyy komentoval Spätné väzby
Muflo komentoval Nábor poistenia
Špeco komentoval náhradná preprava
Rostislav komentoval Dočasná transakcia
Hanka komentoval Spread
Krystof komentoval Ukazovateľ obratu aktív
Simona Česaná komentoval Hedging