Supervizované vs. nesupervizované

Supervizované vs. nesupervizované

Dvě paradigmata učení z dat

Supervizované a nesupervizované učení představují základní přístupy strojového učení. Supervizované učení pracuje s párovanými příklady (vstup, výstup/štítek) a učí se predikovat výstupní proměnnou. Nesupervizované učení pracuje pouze s nevštítkovanými daty, snaží se odhalit vnitřní strukturu, latentní faktory a vztahy. Obě paradigmata lze kombinovat (semi-supervizované, self-supervised, weak supervision) a často sdílejí podobné modely s odlišným cílem optimalizace.

Formální definice úloh

  • Supervizované učení: daná množina dvojic \{(x_i, y_i)\}_{i=1}^n, kde x_i jsou vstupy a y_i cíle (diskrétní u klasifikace, spojité u regrese). Cílem je nalézt funkci f: \mathcal{X} \to \mathcal{Y}, která minimalizuje očekávanou ztrátu \mathbb{E}[\ell(f(x), y)].
  • Nesupervizované učení: daná množina \{x_i\}_{i=1}^n bez štítků. Cílem je odhalit strukturu dat: shluky, dimenzionalitu, hustotu p(x), anomálie nebo reprezentace z = g(x), které komprimují informaci.

Typické úlohy a příklady použití

Paradigma Úloha Popis Příklad
Supervizované Klasifikace Přiřazení třídy Detekce spamu, rozpoznání obrazu kočka/pes
Supervizované Regrese Predikce spojité hodnoty Odhad ceny nemovitosti, predikce poptávky
Supervizované Řazení (ranking) Uspořádání dle relevance Vyhledávače, doporučování
Nesupervizované Shlukování Skupiny podobných vzorků Segmentace zákazníků
Nesupervizované Snížení dimenze Projekce do menšího prostoru Vizualizace, předzpracování
Nesupervizované Detekce anomálií Odchylky od „normálu“ Podvody, poruchy strojů
Nesupervizované Modelování hustoty Odhad p(x) Generativní modely, syntetická data

Algoritmy: přehled hlavních zástupců

  • Supervizované: lineární a logistická regrese, SVM, náhodné lesy a gradient boosting (XGBoost/LightGBM/CatBoost), neuronové sítě (CNN, RNN/Transformers), k-NN, Naivní Bayes.
  • Nesupervizované: k-means/k-medoids, hierarchické shlukování, DBSCAN/HDBSCAN, GMM, PCA/ICA/FA, t-SNE/UMAP (vizualizace), autoenkodéry, word2vec/contrastive learning (self-supervised reprezentace).

Ztrátové funkce a optimalizace

  • Supervizované: MSE/MAE (regrese), log-loss/cross-entropy (klasifikace), hinge loss (SVM), focal loss (nevyvážené třídy), pairwise/listwise loss (ranking). Optimalizace nejčastěji gradientní metody (SGD, Adam, L-BFGS), u stromů aditivní boosting.
  • Nesupervizované: inertiální kritérium k-means (součet čtverců vzdáleností), silueta/DB index pro výběr k; pro PCA minimalizace rekonstrukční chyby/maximalizace vysvětlené variance; u autoenkodérů rekonstrukční loss (L2, BCE) a případně regularizace (KL u VAE).

Hodnocení výkonu: metriky a validace

  • Supervizované: přesnost, precision/recall/F1, ROC-AUC/PR-AUC, RMSE/MAE/R2, log-loss; k-fold křížová validace, stratifikace, časové rozdělení u time-series. Důraz na generalizaci a test na nezáviském hold-outu.
  • Nesupervizované: interní metriky (silueta, Calinski-Harabasz, Davies-Bouldin), externí metriky při dostupnosti částečných štítků (Adjusted Rand Index, Normalized Mutual Information), rekonstrukční chyba, pravděpodobnostní kritéria (BIC/AIC u GMM), stability-based metody.

Datové požadavky a náklady na anotaci

Supervizované učení vyžaduje kvalitní štítky, jejichž získání je nákladné (čas expertů, nekonzistence, bias). Nesupervizované učení škáluje na velké objemy raw dat, ale interpretace výstupů a volba hyperparametrů je náročnější. V praxi se uplatňuje semi-supervised přístup: využití malého množství štítků k nasměrování reprezentací naučených na neštěítkovaných datech.

Předzpracování a inženýrství příznaků

  • Škálování a normalizace: standardizace (z-score), min-max; klíčové pro metody založené na vzdálenosti (SVM, k-means) a gradientní učení.
  • Kategorizace: one-hot, target encoding (pozor na únik informace, nutná CV), embeddingy.
  • Snížení dimenze: PCA/UMAP pro odstranění šumu, rychlost a zlepšení separability; v supervizovaném scénáři i LDA.
  • Výběr příznaků: filtrační (mutual information), zabudované (L1/L2, feature importance ze stromů), wrappery (RFE).

Shlukování vs. klasifikace: koncepční rozdíly

  • Klasifikace (supervizované): naučené hranice mezi třídami; umožňuje pravděpodobnostní výstupy a kvantifikaci nejistoty.
  • Shlukování (nesupervizované): hledá přirozené skupiny podle podobnosti; výsledek nemusí odpovídat lidským kategoriím. Volba metriky vzdálenosti a škály má zásadní vliv.

Generativní vs. diskriminační pohled

Supervizované metody bývají často diskriminační (modelují p(y|x)), kdežto nesupervizované/část generativních modelů odhaduje p(x) nebo společně p(x, y). Generativní přístup umožňuje syntézu dat, imputaci chybějících hodnot, detekci anomálií a aktivní učení, ale vyžaduje náročnější učení (např. VAE, normální toky, difuzní modely).

Výběr modelu a hyperparametrů

  • Supervizované: grid/random search, Bayesovská optimalizace, validace s časovým dělením u sekvencí; early stopping, regularizace (L1/L2, dropout), kalibrace pravděpodobností (Platt/Isotonic).
  • Nesupervizované: výběr k (k-means) pomocí lokte/siluety, epsilon/minPts (DBSCAN) dle hustoty; u PCA volba počtu komponent dle vysvětlené variance.

Interpretovatelnost a vysvětlitelnost

  • Supervizované: globální (koeficienty lineárních modelů, feature importance), lokální (LIME/SHAP, counterfactuals), reliabilita (kalibrace).
  • Nesupervizované: popis shluků prototypy/centroidy, zatížení komponent u PCA, vizualizace (t-SNE/UMAP), rekonstrukční mapy u autoenkodérů.

Nevyvážená data, šum a anomálie

  • Supervizované: re-vážení ztráty, oversampling (SMOTE), undersampling, cost-sensitive učení, thresholding podle PR-AUC.
  • Nesupervizované: robustní metriky, metody založené na hustotě (LOF), izolace stromů (iForest), autoenkodéry s vysokou rekonstrukční chybou pro odlehlé body.

Pipeline a nasazení v praxi

  1. Definice cíle: predikovat y (supervizovaně) nebo získat reprezentace/segmenty (nesupervizovaně).
  2. Data management: sběr, čištění, deduplikace, správa verzí dat a štítků.
  3. Feature store & experiment tracking: opakovatelnost, audit, MLOps.
  4. Trénink & validace: správná schémata CV, metriky vázané na obchodní cíle.
  5. Nasazení: online/ batch inference, monitoring driftu (datového i konceptuálního), re-trénink.

Bezpečnostní a etické aspekty

  • Bias a fairness: u supervizovaného učení může být bias „v pečeti“ štítků; nutná auditovatelnost a fairness metriky.
  • Soukromí: u nesupervizovaných reprezentací pozor na re-identifikaci; zvažte DP (differential privacy) a anonymizaci.
  • Robustnost: odolnost vůči adversariálním vstupům, kontaminovaným štítkům i outlierům.

Srovnání výhod a omezení

Kritérium Supervizované učení Nesupervizované učení
Požadavky na data Vyžaduje štítky (nákladné) Bez štítků (snadná škálovatelnost)
Vyhodnocení Jednoznačné metriky, snadná validace Obtížnější, často nepřímé metriky
Interpretace Často lepší, zejména u jednodušších modelů Závislá na volbě metody a metrik
Obecnost výstupu Specifická predikce cíle Obecná struktura a reprezentace
Citlivost na šum Citlivé na chybné štítky Citlivé na škálování a metriky podobnosti
Nasaditelnost Přímočará pro business cíle Užitečné pro průzkum a předzpracování

Překlenutí mezery: semi-supervizované a self-supervised

  • Semi-supervised: kombinuje malé množství štítků s velkým neoznačeným korpusem (pseudo-labeling, consistency regularization, graph-based label propagation).
  • Self-supervised: vytváří pretext úlohy ze samotných dat (maskování částí vstupu, kontrastivní učení). Naučené reprezentace se následně doladí malým množstvím štítků.

Praktická doporučení pro volbu přístupu

  1. Pokud máte kvalitní štítky a jasný KPI, preferujte supervizované učení s robustní validací.
  2. Při průzkumu neznámé domény, segmentaci, detekci anomálií nebo předzpracování zvažte nesupervizované metody.
  3. Když jsou štítky vzácné, využijte semi-/self-supervised pre-trénink a poté lehké supervizované doladění.
  4. Nezapomeňte na MLOps: versioning dat a modelů, monitoring driftu, re-tréninkové politiky.

Časté chyby a jak se jim vyhnout

  1. Únik informace (leakage): míchání trénovacích a validačních dat, použití target encodingu bez správné CV.
  2. Přeučení (overfitting): nedostatečná regularizace, absence early stopping, příliš složitý model vůči velikosti dat.
  3. Špatná metrika: optimalizace accuracy u nevyvážených tříd; volte PR-AUC, F1, cost-sensitive ztráty.
  4. Nesprávná volba vzdálenosti: u shlukování bez škálování příznaků; zvažte kosinovou/mahalanobisovu metriku.
  5. Přehnané spoléhání na vizualizace: t-SNE/UMAP jsou pro vizualizaci, nikoli pro metrické závěry o separabilitě.

Závěr

Supervizované učení exceluje tam, kde známe cíle a máme štítky; nesupervizované je klíčové pro objevování struktury, redukci dimenze, detekci anomálií a učení reprezentací. V moderní praxi se hranice stírá díky semi- a self-supervizovaným metodám, které využívají masivní neoznačená data a malý počet štítků. Klíčem k úspěchu je správná formulace úlohy, volba metrik, pečlivá validace a provozní disciplína (MLOps), které zajistí, že modely budou nejen přesné, ale i odolné, spravedlivé a udržitelné.

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *