Dvě paradigmata učení z dat
Supervizované a nesupervizované učení představují základní přístupy strojového učení. Supervizované učení pracuje s párovanými příklady (vstup, výstup/štítek) a učí se predikovat výstupní proměnnou. Nesupervizované učení pracuje pouze s nevštítkovanými daty, snaží se odhalit vnitřní strukturu, latentní faktory a vztahy. Obě paradigmata lze kombinovat (semi-supervizované, self-supervised, weak supervision) a často sdílejí podobné modely s odlišným cílem optimalizace.
Formální definice úloh
- Supervizované učení: daná množina dvojic \{(x_i, y_i)\}_{i=1}^n, kde x_i jsou vstupy a y_i cíle (diskrétní u klasifikace, spojité u regrese). Cílem je nalézt funkci f: \mathcal{X} \to \mathcal{Y}, která minimalizuje očekávanou ztrátu \mathbb{E}[\ell(f(x), y)].
- Nesupervizované učení: daná množina \{x_i\}_{i=1}^n bez štítků. Cílem je odhalit strukturu dat: shluky, dimenzionalitu, hustotu p(x), anomálie nebo reprezentace z = g(x), které komprimují informaci.
Typické úlohy a příklady použití
| Paradigma | Úloha | Popis | Příklad |
|---|---|---|---|
| Supervizované | Klasifikace | Přiřazení třídy | Detekce spamu, rozpoznání obrazu kočka/pes |
| Supervizované | Regrese | Predikce spojité hodnoty | Odhad ceny nemovitosti, predikce poptávky |
| Supervizované | Řazení (ranking) | Uspořádání dle relevance | Vyhledávače, doporučování |
| Nesupervizované | Shlukování | Skupiny podobných vzorků | Segmentace zákazníků |
| Nesupervizované | Snížení dimenze | Projekce do menšího prostoru | Vizualizace, předzpracování |
| Nesupervizované | Detekce anomálií | Odchylky od „normálu“ | Podvody, poruchy strojů |
| Nesupervizované | Modelování hustoty | Odhad p(x) | Generativní modely, syntetická data |
Algoritmy: přehled hlavních zástupců
- Supervizované: lineární a logistická regrese, SVM, náhodné lesy a gradient boosting (XGBoost/LightGBM/CatBoost), neuronové sítě (CNN, RNN/Transformers), k-NN, Naivní Bayes.
- Nesupervizované: k-means/k-medoids, hierarchické shlukování, DBSCAN/HDBSCAN, GMM, PCA/ICA/FA, t-SNE/UMAP (vizualizace), autoenkodéry, word2vec/contrastive learning (self-supervised reprezentace).
Ztrátové funkce a optimalizace
- Supervizované: MSE/MAE (regrese), log-loss/cross-entropy (klasifikace), hinge loss (SVM), focal loss (nevyvážené třídy), pairwise/listwise loss (ranking). Optimalizace nejčastěji gradientní metody (SGD, Adam, L-BFGS), u stromů aditivní boosting.
- Nesupervizované: inertiální kritérium k-means (součet čtverců vzdáleností), silueta/DB index pro výběr k; pro PCA minimalizace rekonstrukční chyby/maximalizace vysvětlené variance; u autoenkodérů rekonstrukční loss (L2, BCE) a případně regularizace (KL u VAE).
Hodnocení výkonu: metriky a validace
- Supervizované: přesnost, precision/recall/F1, ROC-AUC/PR-AUC, RMSE/MAE/R2, log-loss; k-fold křížová validace, stratifikace, časové rozdělení u time-series. Důraz na generalizaci a test na nezáviském hold-outu.
- Nesupervizované: interní metriky (silueta, Calinski-Harabasz, Davies-Bouldin), externí metriky při dostupnosti částečných štítků (Adjusted Rand Index, Normalized Mutual Information), rekonstrukční chyba, pravděpodobnostní kritéria (BIC/AIC u GMM), stability-based metody.
Datové požadavky a náklady na anotaci
Supervizované učení vyžaduje kvalitní štítky, jejichž získání je nákladné (čas expertů, nekonzistence, bias). Nesupervizované učení škáluje na velké objemy raw dat, ale interpretace výstupů a volba hyperparametrů je náročnější. V praxi se uplatňuje semi-supervised přístup: využití malého množství štítků k nasměrování reprezentací naučených na neštěítkovaných datech.
Předzpracování a inženýrství příznaků
- Škálování a normalizace: standardizace (z-score), min-max; klíčové pro metody založené na vzdálenosti (SVM, k-means) a gradientní učení.
- Kategorizace: one-hot, target encoding (pozor na únik informace, nutná CV), embeddingy.
- Snížení dimenze: PCA/UMAP pro odstranění šumu, rychlost a zlepšení separability; v supervizovaném scénáři i LDA.
- Výběr příznaků: filtrační (mutual information), zabudované (L1/L2, feature importance ze stromů), wrappery (RFE).
Shlukování vs. klasifikace: koncepční rozdíly
- Klasifikace (supervizované): naučené hranice mezi třídami; umožňuje pravděpodobnostní výstupy a kvantifikaci nejistoty.
- Shlukování (nesupervizované): hledá přirozené skupiny podle podobnosti; výsledek nemusí odpovídat lidským kategoriím. Volba metriky vzdálenosti a škály má zásadní vliv.
Generativní vs. diskriminační pohled
Supervizované metody bývají často diskriminační (modelují p(y|x)), kdežto nesupervizované/část generativních modelů odhaduje p(x) nebo společně p(x, y). Generativní přístup umožňuje syntézu dat, imputaci chybějících hodnot, detekci anomálií a aktivní učení, ale vyžaduje náročnější učení (např. VAE, normální toky, difuzní modely).
Výběr modelu a hyperparametrů
- Supervizované: grid/random search, Bayesovská optimalizace, validace s časovým dělením u sekvencí; early stopping, regularizace (L1/L2, dropout), kalibrace pravděpodobností (Platt/Isotonic).
- Nesupervizované: výběr k (k-means) pomocí lokte/siluety, epsilon/minPts (DBSCAN) dle hustoty; u PCA volba počtu komponent dle vysvětlené variance.
Interpretovatelnost a vysvětlitelnost
- Supervizované: globální (koeficienty lineárních modelů, feature importance), lokální (LIME/SHAP, counterfactuals), reliabilita (kalibrace).
- Nesupervizované: popis shluků prototypy/centroidy, zatížení komponent u PCA, vizualizace (t-SNE/UMAP), rekonstrukční mapy u autoenkodérů.
Nevyvážená data, šum a anomálie
- Supervizované: re-vážení ztráty, oversampling (SMOTE), undersampling, cost-sensitive učení, thresholding podle PR-AUC.
- Nesupervizované: robustní metriky, metody založené na hustotě (LOF), izolace stromů (iForest), autoenkodéry s vysokou rekonstrukční chybou pro odlehlé body.
Pipeline a nasazení v praxi
- Definice cíle: predikovat y (supervizovaně) nebo získat reprezentace/segmenty (nesupervizovaně).
- Data management: sběr, čištění, deduplikace, správa verzí dat a štítků.
- Feature store & experiment tracking: opakovatelnost, audit, MLOps.
- Trénink & validace: správná schémata CV, metriky vázané na obchodní cíle.
- Nasazení: online/ batch inference, monitoring driftu (datového i konceptuálního), re-trénink.
Bezpečnostní a etické aspekty
- Bias a fairness: u supervizovaného učení může být bias „v pečeti“ štítků; nutná auditovatelnost a fairness metriky.
- Soukromí: u nesupervizovaných reprezentací pozor na re-identifikaci; zvažte DP (differential privacy) a anonymizaci.
- Robustnost: odolnost vůči adversariálním vstupům, kontaminovaným štítkům i outlierům.
Srovnání výhod a omezení
| Kritérium | Supervizované učení | Nesupervizované učení |
|---|---|---|
| Požadavky na data | Vyžaduje štítky (nákladné) | Bez štítků (snadná škálovatelnost) |
| Vyhodnocení | Jednoznačné metriky, snadná validace | Obtížnější, často nepřímé metriky |
| Interpretace | Často lepší, zejména u jednodušších modelů | Závislá na volbě metody a metrik |
| Obecnost výstupu | Specifická predikce cíle | Obecná struktura a reprezentace |
| Citlivost na šum | Citlivé na chybné štítky | Citlivé na škálování a metriky podobnosti |
| Nasaditelnost | Přímočará pro business cíle | Užitečné pro průzkum a předzpracování |
Překlenutí mezery: semi-supervizované a self-supervised
- Semi-supervised: kombinuje malé množství štítků s velkým neoznačeným korpusem (pseudo-labeling, consistency regularization, graph-based label propagation).
- Self-supervised: vytváří pretext úlohy ze samotných dat (maskování částí vstupu, kontrastivní učení). Naučené reprezentace se následně doladí malým množstvím štítků.
Praktická doporučení pro volbu přístupu
- Pokud máte kvalitní štítky a jasný KPI, preferujte supervizované učení s robustní validací.
- Při průzkumu neznámé domény, segmentaci, detekci anomálií nebo předzpracování zvažte nesupervizované metody.
- Když jsou štítky vzácné, využijte semi-/self-supervised pre-trénink a poté lehké supervizované doladění.
- Nezapomeňte na MLOps: versioning dat a modelů, monitoring driftu, re-tréninkové politiky.
Časté chyby a jak se jim vyhnout
- Únik informace (leakage): míchání trénovacích a validačních dat, použití target encodingu bez správné CV.
- Přeučení (overfitting): nedostatečná regularizace, absence early stopping, příliš složitý model vůči velikosti dat.
- Špatná metrika: optimalizace accuracy u nevyvážených tříd; volte PR-AUC, F1, cost-sensitive ztráty.
- Nesprávná volba vzdálenosti: u shlukování bez škálování příznaků; zvažte kosinovou/mahalanobisovu metriku.
- Přehnané spoléhání na vizualizace: t-SNE/UMAP jsou pro vizualizaci, nikoli pro metrické závěry o separabilitě.
Závěr
Supervizované učení exceluje tam, kde známe cíle a máme štítky; nesupervizované je klíčové pro objevování struktury, redukci dimenze, detekci anomálií a učení reprezentací. V moderní praxi se hranice stírá díky semi- a self-supervizovaným metodám, které využívají masivní neoznačená data a malý počet štítků. Klíčem k úspěchu je správná formulace úlohy, volba metrik, pečlivá validace a provozní disciplína (MLOps), které zajistí, že modely budou nejen přesné, ale i odolné, spravedlivé a udržitelné.