Strojové učenie: Algoritmy, čo sa učia


Machine learning: definícia, ciele a rámec

Machine learning (ML) je disciplína umelej inteligencie, ktorá umožňuje systémom zlepšovať sa skúsenosťou na základe dát bez explicitného programovania všetkých pravidiel. Prakticky ide o hľadanie funkcie f, ktorá mapuje vstupy na výstupy tak, aby minimalizovala očakávanú stratu pri budúcich, nevidených príkladoch. Kľúčom je generalizácia: model sa nesmie naučiť len trénovacie dáta, ale aj ich štruktúru.

Klasifikácia prístupov

  • Supervised learning: učíme sa zo značených dát (klasifikácia, regresia).
  • Unsupervised learning: hľadanie štruktúr bez značenia (zhlukovanie, redukcia dimenzie, hustoty).
  • Semi-supervised learning: kombinácia malého počtu značených a veľkého počtu neznačených vzoriek.
  • Self-supervised learning: pretextové úlohy generujú pseudoštítky priamo z dát (maskované predikcie, kontrastné učenie).
  • Reinforcement learning (RL): učenie politiky správania na základe odmien v prostredí.

Typické oblasti použitia

  • Videnie: detekcia objektov, segmentácia, OCR, kontrola kvality.
  • NLP: klasifikácia textu, zhrnovanie, preklad, dištinkcia sentimentu, retrieval.
  • Časové rady: forecast dopytu, anomálie, prediktívna údržba.
  • Tabuľkové úlohy: credit scoring, churn, pricing, odporúčanie.
  • Generatívne modely: syntéza obrazu, textu, zvuku, augmentácia dát.

Pipeline strojového učenia

  1. Formulácia problému: definícia cieľa (metrika, obmedzenia, náklady na chyby), rozhodovací kontext.
  2. Dáta: zber, integrácia, kvalita, reprezentatívnosť, verzovanie a rodokmeň (data lineage).
  3. Predspracovanie: čistenie, imputácia, normalizácia/štandardizácia, kódovanie kategórií, balansovanie tried.
  4. Feature engineering: doménové transformácie, interakcie, agregácie v čase, embeddings.
  5. Výber modelov: baseline → pokročilé modely → ensembles; iteratívna validácia.
  6. Tréning a ladenie: hyperparametre, regulácia, skoré zastavenie, prenos učenia.
  7. Vyhodnotenie: robustná metrika, kalibrácia, odolnosť, vysvetliteľnosť, fairness.
  8. Nasadenie a MLOps: verzie, CI/CD, monitoring driftu, retréning, guardrails.

Modely pre dohliadané učenie

  • Lineárne modely: regresia a logistická regresia s L1/L2/elastic-net reguláciou; dobre interpretovateľné.
  • Stromy a lesy: rozhodovacie stromy, Random Forest; robustné voči outlierom, zvládajú nelinearity.
  • Gradient boosting: XGBoost, LightGBM, CatBoost; špička pre tabuľkové dáta.
  • SVM: efektívne v stredných dimenziách, jadrové triky pre nelinearity.
  • Neurónové siete: MLP, CNN, RNN/LSTM/GRU, Transformery; vysoká flexibilita, potreba dát a regularizácie.

Modely pre nedohliadané učenie

  • Zhlukovanie: k-means/k-medoids, hierarchické, DBSCAN/HDBSCAN.
  • Redukcia dimenzie: PCA, t-SNE, UMAP pre vizualizáciu; autoenkódery pre nelineárne reprezentácie.
  • Modelovanie hustoty: GMM, normalizing flows, kernel density estimation.

Generatívne prístupy

  • VAEs: pravdepodobnostné latentné reprezentácie a rekonstrukcia.
  • GANs: hra generátora a diskriminátora, syntéza realistických vzoriek.
  • Diffusion modely: postupná denoizácia, špičková kvalita obrazu a všestrannosť.
  • Autoregresívne modely: sekvenčné generovanie textu a audia (transformery).

Optimalizácia a straty

Tréning je riešený numerickou optimalizáciou nad stratovou funkciou. Základ tvorí stochastický gradientný zostup a jeho varianty (Momentum, RMSProp, Adam, AdamW). Voľba straty vyplýva z povahy úlohy: MSE/MAPE pre regresiu, cross-entropy/focal loss pre klasifikáciu, kontrastné straty (NT-Xent, InfoNCE) pre self-supervised. Dôležité je škálovanie učiaceho kroku, plánovanie (warmup, cosine decay) a batch norm/LayerNorm.

Generalizácia, bias–variance a regularizácia

Chybovosť možno chápať ako súčet biasu, variance a šumu. Regularizácia (L1/L2, dropout, data augmentation, skoré zastavenie) znižuje preučenie. Kľúčové je správne delenie dát (train/validation/test), krížová validácia a kontrola únikov informácie (leakage) v čase a cez entity.

Metriky hodnotenia a kalibrácia

Úloha Metriky Poznámka
Klasifikácia Accuracy, Precision, Recall, F1, ROC-AUC, PR-AUC PR-AUC pri nevyvážených triedach
Regresia MSE, RMSE, MAE, R2, MAPE MAE robustné na outliery
Ranking NDCG, MAP, HitRate Odporúčacie systémy
Kalibrácia Brier score, reliabilitné krivky Platt/Isotonic pre kalibráciu pravdepodobností

Vysvetliteľnosť a interpretovateľnosť

  • Globálne: koeficienty lineárnych modelov, feature importance (gain, permutation), parciálne závislosti.
  • Lokálne: LIME, SHAP, counterfactual vysvetlenia.
  • Špecifiká domén: v regulovaných odvetviach je potrebná auditovateľnosť a reprodukovateľnosť vysvetlení.

Fairness, etika a zodpovedné ML

Modely môžu reprodukovať či zosilňovať skreslenia v dátach. Fairness metriky (demographic parity, equalized odds, equal opportunity) a nápravné zásahy (reweighing, adversariálne tréningy, post-processing prahov) pomáhajú zmierňovať nerovnosti. Etické rámce zahŕňajú transparentnosť, contestability, bezpečnostné testy a minimalizáciu škody.

Neistota, robustnosť a out-of-distribution

  • Neistota: predikčná vs. epistemická; ensembling, MC-dropout, Bayesovské NN, kalibrácia.
  • Robustnosť: odolnosť voči šumu, adversariálne útoky, testy citlivosti, augmentácie domény.
  • OOD detekcia: skóre z hustotných modelov, energy-based metódy, Mahalanobis vzdialenosť.

Časové rady a kauzalita

Forecasting vyžaduje rešpektovanie chronológie a sezónnosti (ARIMA, Prophet, RNN/TCN/Transformer na sekvencie). Pre rozhodovanie je často dôležitá kauzalita (nie len korelácia): nástroje zahŕňajú randomizované experimenty, propensity scoring, do-calculus a strukturné kauzálne modely.

NLP a transformery

Transformery s mechanizmom self-attention dominujú sekvenčným úlohám. Pre trénovanie sa využíva pre-učenie na veľkých korpusoch (maskované modelovanie, autoregresia) a následné doladenie. Reprezentácie (embeddings) slúžia aj pre retrieval, klasifikáciu a generovanie. Pre efektivitu sa používajú techniky ako low-rank adaptácia, distilácia a kvantizácia.

Počítačové videnie

  • CNN a varianty: ResNet, EfficientNet pre klasifikáciu; U-Net/DeepLab pre segmentáciu; Faster R-CNN/YOLO/DETR pre detekciu.
  • Vision Transformers: patch-based pozornosť, výhody pri veľkých datasetoch.
  • Self-supervised: kontrastné učenie (SimCLR, MoCo), maskované autoenkódery.

Odporúčacie systémy

Kombinujú kolaboratívne filtrovanie (matrix factorization, implicitné spätnej väzby) s obsahovými a kontextovými prvkami. Moderné prístupy využívajú sekvenčné modely a re-ranking s ohľadom na rozmanitosť, serendipitu a dlhodobé ciele.

AutoML a meta-učenie

AutoML automatizuje výber pipeline, modelov a hyperparametrov, no vyžaduje hlboké obmedzenia (čas, pamäť, interpretovateľnosť). Meta-learning a few-shot prístupy umožňujú rýchle adaptácie s veľmi malým počtom vzoriek.

MLOps: od prototypu k produkcii

  • Versioning: dáta, features, modely, experimenty; deterministická reprodukovateľnosť.
  • Deployment patterny: batch scoring, online REST, streaming, on-device (edge, mobilné NN).
  • Monitoring: kvalita dát, distribučný drift (covariate/prior drift), performančný drift, latencia a náklady.
  • Retréning: triggre a harmonogramy, champion–challenger, A/B a shadow deployment.

Škálovanie a infraštruktúra

Efektívny tréning vyžaduje paralelizáciu (data/model/pipeline parallel), urýchľovače (GPU/TPU), zmiešanú presnosť a optimalizované I/O. Pre veľké modely sú kľúčové checkpointing, gradient checkpointing, ZeRO a sharding parametrov. V inference vrstve pomáhajú kvantizácia, kompresia a caching.

Súkromie, bezpečnosť a compliance

  • Diferencované súkromie: kontrolované pridanie šumu do učenia alebo výstupov.
  • Federované učenie: tréning na koncových zariadeniach s agregáciou gradientov.
  • Bezpečnosť modelov: ochrana pred model stealing, membership inference, data poisoning.
  • Compliance: audit trail, vysvetliteľnosť, kontrola prístupu k dátam, retenčné politiky.

Dizajn experimentov a validácia

Okrem offline metrík je nevyhnutné online testovanie (A/B, bandity) so správnym zarovnaním metrík na biznis dopad. Pozor na interferenciu používateľov, sezónnosť, dĺžku experimentu a metriky druhého rádu (diverzita, spravodlivosť, dlhodobá angažovanosť).

Praktické odporúčania pre projekty ML

  1. Začnite baseline: zmysluplná jednoduchá referencia (napr. logistická regresia, naivna predikcia v čase).
  2. Dôraz na dáta: zlepšenie kvality dát často prekoná sofistikáciu modelu.
  3. Kontext metrík: optimalizujte na metriky, ktoré korelujú s reálnym rizikom a hodnotou.
  4. Kontrolujte drift: nastavte alerty a plánovaný audit výkonu a fairness.
  5. Automatizujte: pipeline od feature store po monitoring skracuje cyklus uvoľnení.

Limitácie a anti-patterny

  • Overfitting na validáciu: opakované ladenie na ten istý set vedie k optimizmu.
  • Shortcut learning: modely sa učia spúšťače v dátach nesúvisiace s príčinou (spurious korelácie).
  • Data leakage: informácie z budúcnosti alebo cieľa presiaknu do tréningu.
  • Ignorovanie nákladov na infra: náročné modely bez ROI a prevádzkových garancií.

Zhrnutie

Machine learning je univerzálny nástroj na extrakciu vzorcov a podporu rozhodovania v prostredí neistoty. Jeho úspech závisí od kvality dát, správne zvolenej metriky, disciplinovaného procesu a zodpovedného prístupu k etike, súkromiu a robustnosti. Strategická výhoda nevzniká len z modelu samotného, ale z celého systému—od návrhu experimentov cez MLOps až po schopnosť učiť sa z produkčnej reality a rýchlo iterovať.

Poradňa

Potrebujete radu? Chcete pridať komentár, doplniť alebo upraviť túto stránku? Vyplňte textové pole nižšie. Ďakujeme ♥