Strojové učenie: Algoritmy, čo sa učia – Ekonomická encyklopédia

Machine learning: definícia, ciele a rámec

Machine learning (ML) je disciplína umelej inteligencie, ktorá umožňuje systémom zlepšovať sa skúsenosťou na základe dát bez explicitného programovania všetkých pravidiel. Prakticky ide o hľadanie funkcie f, ktorá mapuje vstupy na výstupy tak, aby minimalizovala očakávanú stratu pri budúcich, nevidených príkladoch. Kľúčom je generalizácia: model sa nesmie naučiť len trénovacie dáta, ale aj ich štruktúru.

Klasifikácia prístupov

Supervised learning: učíme sa zo značených dát (klasifikácia, regresia).
Unsupervised learning: hľadanie štruktúr bez značenia (zhlukovanie, redukcia dimenzie, hustoty).
Semi-supervised learning: kombinácia malého počtu značených a veľkého počtu neznačených vzoriek.
Self-supervised learning: pretextové úlohy generujú pseudoštítky priamo z dát (maskované predikcie, kontrastné učenie).
Reinforcement learning (RL): učenie politiky správania na základe odmien v prostredí.

Typické oblasti použitia

Videnie: detekcia objektov, segmentácia, OCR, kontrola kvality.
NLP: klasifikácia textu, zhrnovanie, preklad, dištinkcia sentimentu, retrieval.
Časové rady: forecast dopytu, anomálie, prediktívna údržba.
Tabuľkové úlohy: credit scoring, churn, pricing, odporúčanie.
Generatívne modely: syntéza obrazu, textu, zvuku, augmentácia dát.

Pipeline strojového učenia

Formulácia problému: definícia cieľa (metrika, obmedzenia, náklady na chyby), rozhodovací kontext.
Dáta: zber, integrácia, kvalita, reprezentatívnosť, verzovanie a rodokmeň (data lineage).
Predspracovanie: čistenie, imputácia, normalizácia/štandardizácia, kódovanie kategórií, balansovanie tried.
Feature engineering: doménové transformácie, interakcie, agregácie v čase, embeddings.
Výber modelov: baseline → pokročilé modely → ensembles; iteratívna validácia.
Tréning a ladenie: hyperparametre, regulácia, skoré zastavenie, prenos učenia.
Vyhodnotenie: robustná metrika, kalibrácia, odolnosť, vysvetliteľnosť, fairness.
Nasadenie a MLOps: verzie, CI/CD, monitoring driftu, retréning, guardrails.

Modely pre dohliadané učenie

Lineárne modely: regresia a logistická regresia s L1/L2/elastic-net reguláciou; dobre interpretovateľné.
Stromy a lesy: rozhodovacie stromy, Random Forest; robustné voči outlierom, zvládajú nelinearity.
Gradient boosting: XGBoost, LightGBM, CatBoost; špička pre tabuľkové dáta.
SVM: efektívne v stredných dimenziách, jadrové triky pre nelinearity.
Neurónové siete: MLP, CNN, RNN/LSTM/GRU, Transformery; vysoká flexibilita, potreba dát a regularizácie.

Modely pre nedohliadané učenie

Zhlukovanie: k-means/k-medoids, hierarchické, DBSCAN/HDBSCAN.
Redukcia dimenzie: PCA, t-SNE, UMAP pre vizualizáciu; autoenkódery pre nelineárne reprezentácie.
Modelovanie hustoty: GMM, normalizing flows, kernel density estimation.

Generatívne prístupy

VAEs: pravdepodobnostné latentné reprezentácie a rekonstrukcia.
GANs: hra generátora a diskriminátora, syntéza realistických vzoriek.
Diffusion modely: postupná denoizácia, špičková kvalita obrazu a všestrannosť.
Autoregresívne modely: sekvenčné generovanie textu a audia (transformery).

Optimalizácia a straty

Tréning je riešený numerickou optimalizáciou nad stratovou funkciou. Základ tvorí stochastický gradientný zostup a jeho varianty (Momentum, RMSProp, Adam, AdamW). Voľba straty vyplýva z povahy úlohy: MSE/MAPE pre regresiu, cross-entropy/focal loss pre klasifikáciu, kontrastné straty (NT-Xent, InfoNCE) pre self-supervised. Dôležité je škálovanie učiaceho kroku, plánovanie (warmup, cosine decay) a batch norm/LayerNorm.

Generalizácia, bias–variance a regularizácia

Chybovosť možno chápať ako súčet biasu, variance a šumu. Regularizácia (L1/L2, dropout, data augmentation, skoré zastavenie) znižuje preučenie. Kľúčové je správne delenie dát (train/validation/test), krížová validácia a kontrola únikov informácie (leakage) v čase a cez entity.

Metriky hodnotenia a kalibrácia

Úloha	Metriky	Poznámka
Klasifikácia	Accuracy, Precision, Recall, F1, ROC-AUC, PR-AUC	PR-AUC pri nevyvážených triedach
Regresia	MSE, RMSE, MAE, R², MAPE	MAE robustné na outliery
Ranking	NDCG, MAP, HitRate	Odporúčacie systémy
Kalibrácia	Brier score, reliabilitné krivky	Platt/Isotonic pre kalibráciu pravdepodobností

Vysvetliteľnosť a interpretovateľnosť

Globálne: koeficienty lineárnych modelov, feature importance (gain, permutation), parciálne závislosti.
Lokálne: LIME, SHAP, counterfactual vysvetlenia.
Špecifiká domén: v regulovaných odvetviach je potrebná auditovateľnosť a reprodukovateľnosť vysvetlení.

Fairness, etika a zodpovedné ML

Modely môžu reprodukovať či zosilňovať skreslenia v dátach. Fairness metriky (demographic parity, equalized odds, equal opportunity) a nápravné zásahy (reweighing, adversariálne tréningy, post-processing prahov) pomáhajú zmierňovať nerovnosti. Etické rámce zahŕňajú transparentnosť, contestability, bezpečnostné testy a minimalizáciu škody.

Neistota, robustnosť a out-of-distribution

Neistota: predikčná vs. epistemická; ensembling, MC-dropout, Bayesovské NN, kalibrácia.
Robustnosť: odolnosť voči šumu, adversariálne útoky, testy citlivosti, augmentácie domény.
OOD detekcia: skóre z hustotných modelov, energy-based metódy, Mahalanobis vzdialenosť.

Časové rady a kauzalita

Forecasting vyžaduje rešpektovanie chronológie a sezónnosti (ARIMA, Prophet, RNN/TCN/Transformer na sekvencie). Pre rozhodovanie je často dôležitá kauzalita (nie len korelácia): nástroje zahŕňajú randomizované experimenty, propensity scoring, do-calculus a strukturné kauzálne modely.

NLP a transformery

Transformery s mechanizmom self-attention dominujú sekvenčným úlohám. Pre trénovanie sa využíva pre-učenie na veľkých korpusoch (maskované modelovanie, autoregresia) a následné doladenie. Reprezentácie (embeddings) slúžia aj pre retrieval, klasifikáciu a generovanie. Pre efektivitu sa používajú techniky ako low-rank adaptácia, distilácia a kvantizácia.

Počítačové videnie

CNN a varianty: ResNet, EfficientNet pre klasifikáciu; U-Net/DeepLab pre segmentáciu; Faster R-CNN/YOLO/DETR pre detekciu.
Vision Transformers: patch-based pozornosť, výhody pri veľkých datasetoch.
Self-supervised: kontrastné učenie (SimCLR, MoCo), maskované autoenkódery.

Odporúčacie systémy

Kombinujú kolaboratívne filtrovanie (matrix factorization, implicitné spätnej väzby) s obsahovými a kontextovými prvkami. Moderné prístupy využívajú sekvenčné modely a re-ranking s ohľadom na rozmanitosť, serendipitu a dlhodobé ciele.

AutoML a meta-učenie

AutoML automatizuje výber pipeline, modelov a hyperparametrov, no vyžaduje hlboké obmedzenia (čas, pamäť, interpretovateľnosť). Meta-learning a few-shot prístupy umožňujú rýchle adaptácie s veľmi malým počtom vzoriek.

MLOps: od prototypu k produkcii

Versioning: dáta, features, modely, experimenty; deterministická reprodukovateľnosť.
Deployment patterny: batch scoring, online REST, streaming, on-device (edge, mobilné NN).
Monitoring: kvalita dát, distribučný drift (covariate/prior drift), performančný drift, latencia a náklady.
Retréning: triggre a harmonogramy, champion–challenger, A/B a shadow deployment.

Škálovanie a infraštruktúra

Efektívny tréning vyžaduje paralelizáciu (data/model/pipeline parallel), urýchľovače (GPU/TPU), zmiešanú presnosť a optimalizované I/O. Pre veľké modely sú kľúčové checkpointing, gradient checkpointing, ZeRO a sharding parametrov. V inference vrstve pomáhajú kvantizácia, kompresia a caching.

Súkromie, bezpečnosť a compliance

Diferencované súkromie: kontrolované pridanie šumu do učenia alebo výstupov.
Federované učenie: tréning na koncových zariadeniach s agregáciou gradientov.
Bezpečnosť modelov: ochrana pred model stealing, membership inference, data poisoning.
Compliance: audit trail, vysvetliteľnosť, kontrola prístupu k dátam, retenčné politiky.

Dizajn experimentov a validácia

Okrem offline metrík je nevyhnutné online testovanie (A/B, bandity) so správnym zarovnaním metrík na biznis dopad. Pozor na interferenciu používateľov, sezónnosť, dĺžku experimentu a metriky druhého rádu (diverzita, spravodlivosť, dlhodobá angažovanosť).

Praktické odporúčania pre projekty ML

Začnite baseline: zmysluplná jednoduchá referencia (napr. logistická regresia, naivna predikcia v čase).
Dôraz na dáta: zlepšenie kvality dát často prekoná sofistikáciu modelu.
Kontext metrík: optimalizujte na metriky, ktoré korelujú s reálnym rizikom a hodnotou.
Kontrolujte drift: nastavte alerty a plánovaný audit výkonu a fairness.
Automatizujte: pipeline od feature store po monitoring skracuje cyklus uvoľnení.

Limitácie a anti-patterny

Overfitting na validáciu: opakované ladenie na ten istý set vedie k optimizmu.
Shortcut learning: modely sa učia spúšťače v dátach nesúvisiace s príčinou (spurious korelácie).
Data leakage: informácie z budúcnosti alebo cieľa presiaknu do tréningu.
Ignorovanie nákladov na infra: náročné modely bez ROI a prevádzkových garancií.

Zhrnutie

Machine learning je univerzálny nástroj na extrakciu vzorcov a podporu rozhodovania v prostredí neistoty. Jeho úspech závisí od kvality dát, správne zvolenej metriky, disciplinovaného procesu a zodpovedného prístupu k etike, súkromiu a robustnosti. Strategická výhoda nevzniká len z modelu samotného, ale z celého systému—od návrhu experimentov cez MLOps až po schopnosť učiť sa z produkčnej reality a rýchlo iterovať.