Základy strojového učení – Ekonomická encyklopédia

Účel článku a co považujeme za strojové učení

Tento odborný článek systematicky shrnuje základy strojového učení (ML) a klíčové algoritmy napříč paradigmata – od učení s učitelem a bez učitele, přes modely pravděpodobnostní, geometrické i neuronové, až po hodnocení, regularizaci, škálování tréninku a provozní nasazení (MLOps). Důraz je kladen na prakticky použitelné principy: práce se ztrátovou funkcí, bias–variance trade-off, strategie validace, interpretovatelnost a robustnost.

Formální rámec: data, hypotézový prostor a ztráta

Data: nezávislé a identicky rozdělené vzorky D = {(x_i, y_i)} pro učení s učitelem; pouze x_i pro učení bez učitele; sekvence pro časové řady; interakce agent–prostředí pro RL.
Hypotézový prostor &mathcal;H: množina funkcí f: Χ→γ (např. lineární, stromové, neuronové). Kapacita modelu ovlivňuje zobecnění.
Ztráta ℓ(y, f(x)): MSE/MAE pro regresi; log-loss (cross-entropy) pro klasifikaci; marginové ztráty (hinge) pro SVM; specializované ztráty pro ranking, segmentaci, atd.
Empirické riziko: R̂(f) = (1/n) ∑_i ℓ(y_i, f(x_i)) – minimalizováno během tréninku s regularizací k omezení přeučení.

Bias–variance a regularizace

Bias–variance trade-off: vysoký bias → podučení; vysoká variance → přeučení. Cílem je najít rovnováhu volbou kapacity, regularizace a objemu dat.
Regularizace: L2 (Ridge) přidává λ‖θ‖₂², L1 (Lasso) λ‖θ‖₁ s indukcí řídkosti; Elastic Net kombinuje obě. U neuronových sítí dropout, weight decay, early stopping, data augmentace.
Normalizace: standardizace rysů (zero-mean, unit-variance), škáluje gradienty a zrychluje konvergenci; u NN i batch/layer norm.

Validace, dělení dat a prevence úniků (leakage)

Dělení: train/validation/test (např. 70/15/15). U malých datasetů k-fold (typ. 5–10) nebo stratifikované k-fold pro nerovnováhu tříd.
Leakage: všechny transformace (škálování, výběr rysů) fitujte pouze na tréninku; na validaci/testu transformujte již naučeným operátorem.
Časové řady: time-series split s rostoucím tréninkovým oknem; backtesting; vyvarovat se „pohledu do budoucnosti“.

Základní algoritmy učení s učitelem (supervised)

Lineární regrese: OLS minimalizuje MSE; s L2 → Ridge, s L1 → Lasso (výběr rysů); robustní varianta Huber/Quantile.
Logistická regrese: modeluje P(y=1|x) = σ(θ^Tx); optimalizace klesáním po gradientu (GD/SGD), hodnotí se log-loss, AUC, F1.
k-nejbližších sousedů (kNN): lenivý učící algoritmus, metrika (Euclid, cosine); citlivý na škálování a rozměr.
Naivní Bayes: předpoklad podmíněné nezávislosti rysů; varianty Gaussian/Multinomial/Bernoulli; rychlý baseline.
Podpůrné vektorové stroje (SVM): maximalizace marginu; lineární i s jádry (RBF, poly); hinge loss + C; pro regresi SVR (ε-insensitive).
Rozhodovací stromy: greedy dělení (Gini/entropy/variance); snadná interpretace, náchylnost k přeučení → omezovat hloubku, min. vzorky.
Ensembles: Bagging (Random Forest), Boosting (AdaBoost, Gradient Boosting, XGBoost/LightGBM/CatBoost); často SOTA pro tabulková data.
Neuronové sítě: MLP pro tabulky; CNN pro obrazy (konvoluce, pooling); RNN/LSTM/GRU pro sekvence; Transformer (self-attention) pro text, obraz i tabulky.

Učení bez učitele (unsupervised) a sčástečně učitelem

Clustering: k-means (Lloyd; nutná volba k), GMM (EM algoritmus; měkké přiřazení), DBSCAN/HDBSCAN (hustotní; zvládá outliery), spectral clustering.
Dimenzionalita: PCA (ortogonální projekce max. variance), ICA (nezávislé komponenty), NMF (kladné faktorizace), t-SNE/UMAP (nelineární vizualizace, ne na tréninkový pipeline bez uvážení).
Anomálie: One-Class SVM, Isolation Forest, Autoencodery; volba metriky (precision@k, PR-křivky v extrémní nerovnováze).
Self-/semi-supervised: pseudolabeling, consistency regularization, kontrastivní učení (SimCLR, MoCo), weak supervision.

Optimalizace a učení parametrů

Gradientní metody: GD/SGD, momentum, Nesterov; adaptivní: AdaGrad, RMSProp, Adam/AdamW; výběr learning rate (warmup, decay, cyklické schéma).
Konvexita vs. nelinearita: lineární modely s L2 jsou konvexní → globální optimum; hluboké sítě nelineární → lokální minima/plošiny – prakticky stačí „dobrá“ řešení.
Regularizační triky: early stopping, dropout, label smoothing, data augmentation (flip/crop/noise, mixup, CutMix).

Výběr rysů a inženýrství proměnných

Kategorizace: one-hot, target encoding (s opatrností kvůli leakage), learned embeddings.
Číselné rysy: škálování (standard/robust/min–max), power transform; binning pro stromové modely obvykle zbytečný.
Interakce a polynomy: explicitní generování (poly features) vs. modely, které je „umí“ implicitně (stromy, sítě).
Výběr rysů: filtrační (mutuální informace), wrapper (RFE), embedded (L1, stromové importances); pozor na stabilitu a kolinearitu.

Hyperparametry a automatizace hledání

Grid vs. random search: random je efektivnější v prostoru s „aktivními“ dimenzemi.
Bayesovská optimalizace: TPE/GP bandity, sekvenční návrhy; early-stopping a multi-fidelity (Hyperband/ASHA) pro škálování.
Pipelines: zachycení transformací a modelu do jednoho objektu pro reprodukovatelnost a prevenci leakage.

Hodnocení modelů a metriky

Klasifikace: accuracy (zrádná v nerovnováze), precision/recall/F1, AUC-ROC/PR, log-loss, Brier score, kalibrace pravděpodobností (Platt/Isotonic).
Regrese: RMSE/MAE/R², MAPE (pozor na nuly), pinball loss pro kvantilovou regresi.
Rankování a doporučování: MAP@k, NDCG, hit@k, coverage/diversity.
Časové řady: sMAPE, MASE; backtesting s rolováním okna, multistep vs. direct strategie.

Imbalance tříd a robustnost

Re-sampling: stratifikace, class weights, SMOTE/ADASYN (syntetické vzorky) – kontrolovat overfitting.
Robustnost: detekce outlierů, stabilita na šum, adversariální testy (u DL), data drift monitoring v provozu.

Interpretovatelnost a vysvětlitelnost

Globální vs. lokální: globální význam rysů (Permutation/GINI), parciální závislosti (PDP), ICE křivky; lokální metody LIME/SHAP.
Konfuzní matice a chybové analýzy: segmentace problémových podmnožin (slicing) → cílené zlepšení.
Fairness: metriky parity (demographic parity, equal opportunity), testování biasu a mitigace (reweighing, post-processing).

Pravděpodobnostní modelování a Bayesovský přístup

Grafické modely: Bayesovské sítě, Markovské sítě; inference (belief propagation, variational methods).
Bayesovská regrese/klasifikace: prior–likelihood–posterior; výhoda kvantifikace nejistoty; aproximace MCMC/VI.
Kalibrace a nejistota: predikční intervaly, epistemická vs. aleatorní nejistota; ensembling a MC dropout.

Neuronové architektury a moderní DLC triky

CNN: konvoluce, kernel/stride/padding, residual spojení (ResNet), attention v obraze (ViT).
RNN/LSTM/GRU: sekvenční data, dlouhodobé závislosti; masking, teacher forcing.
Transformery: self-attention, multi-head, positional encoding; škálují se lépe než RNN; pretrénink + fine-tuning.
Optimalizace u DL: mixed precision, gradient clipping, learning-rate schedule (cosine, one-cycle), checkpointing.

Zesilované učení (Reinforcement Learning) v kostce

Prvky RL: stav s, akce a, odměna r, politika π, hodnotová funkce V, akční hodnota Q.
Metody: value-based (Q-learning, DQN), policy gradient (REINFORCE), actor–critic (A2C/A3C, PPO), model-based (MCTS, World Models).
Exploration vs. exploitation: ε-greedy, UCB, entropy bonus.

Časové řady a predikce

Klasika: ARIMA/SARIMA, ETS; exogenní proměnné (ARIMAX).
ML/DL: gradient boosting na lag/rolling features, LSTM/Transformer (Temporal Fusion, Informer). Pozor na leakage při feature engineeringu.

Od prototypu k produkci: MLOps

Reprodukovatelnost: správa datových verzí, seedů, prostředí (containers), deklarativní pipelines.
Nasazení: batch vs. online inference, latence a škálování; feature store pro konzistenci mezi tréninkem a inferencí.
Monitoring: datový/skórovací drift, výkonnost (latence, throughput), metriky kvality; alerting a rollback strategie.
Etika a soulad: privacy-by-design, minimalizace osobních údajů, auditovatelnost rozhodnutí.

Praktický návrhový postup (end-to-end)

Formulace cíle: jasná metrika úspěchu (např. F1@0.5, RMSE < X), omezení (latence, paměť, fairness).
Data a EDA: kvalita, chybějící hodnoty, nerovnováha, drift; datové protokoly a dokumentace.
Baseline: jednoduchý model (logit/GBM) a realistická validace; nastavení referenčního výkonu.
Feature pipeline: škálování, encoding, agregace; zabalení do reprodukovatelné pipeline.
Model a tuning: výběr rodiny (stromy vs. NN), hyperparametry (random/Bayes), regularizace a early stopping.
Hodnocení a interpretace: více metrik, chybová analýza, SHAP/PDP, fairness testy.
Hardening a nasazení: robustnost na šum, out-of-distribution testy, monitoring; CI/CD a rollback.

Časté chyby a jak se jim vyhnout

Leakage: fit transformací na celém datasetu; řešení: přísná separace train/val/test a pipelines.
Špatná metrika: optimalizace accuracy v nerovnováze → používat PR-křivky, F1, cost-sensitive loss.
Přeučení na validaci: opakované ladění podle stejného validačního splitu; řešení: nested CV, držet test „zamčený“.
Nestabilní trénink: neškálovaná data, nevhodný LR, chybějící regularizace; řešení: standardizace, scheduler, weight decay.

Rychlá mapa volby algoritmu

Tabulková data: Gradient Boosting / Random Forest → baseline; u velkých dat přidejte regularizaci a feature výběr.
Obraz: CNN/ViT s transfer learningem; augmentace, mixup, label smoothing.
Text: Transformer (BERT-like) s fine-tuningem; tokenizace, pečlivá validace.
Časové řady: GBM na engineered featurách / LSTM/Transformer; backtesting.
Anomálie: Isolation Forest / Autoencoder / One-Class SVM podle povahy dat.

Závěr

Základy strojového učení stojí na správné formulaci problému, kvalitní práci s daty, rozumném výběru algoritmu a důsledné validaci. Regularizace, interpretovatelnost a robustní provozní procesy jsou klíčové pro to, aby model nejen exceloval v tréninku, ale také spolehlivě generalizoval v reálném světě. Tímto rámcem lze efektivně přistupovat jak k klasickým tabulkovým úlohám, tak k moderním hlubokým architekturám v oblasti obrazu, textu a sekvencí.

Samuel Salaj komentoval SCRUM
Filip Sichman komentoval Parcela
Šajno komentoval Odvolateľný akreditív
Šajto komentoval AVV
DawnBreaker komentoval Spoločnosť s ručením obmedzeným
Ellen komentoval Úverová kalkulačka
Julius Simsky komentoval Priemysel
Dwaewiel komentoval IOST (IOST)
Veronika B. komentoval Finančný trh
Peter Trnka komentoval Počítačový vírus