Trénování a evaluace – Ekonomická encyklopédia

Cíle trénování a evaluace v machine learningu

Trénování modelů ve strojovém učení je proces učení parametrů (resp. i struktur) z dat s cílem minimalizovat chybu či maximalizovat užitek při generalizaci na neviděné vzorky. Evaluace přesnosti pak kvantifikuje kvalitu tohoto učení pomocí metrik, statistických testů a analýz chyb. Klíčovou výzvou je zabránit přeučení, zachovat replikovatelnost a poskytovat spolehlivé odhady výkonu i nejistoty.

Příprava dat: kvalita před kvantitou

Čištění a imputace: odstranění či imputace chybějících hodnot (median/mode, model-based), detekce anomálií, konsolidace kategorií.
Normalizace a škálování: standardizace (z-score), min–max, robustní škálování; u neuronových sítí též normalizace vstupů a kategorizace.
Feature engineering: doménové transformace, log/Box-Cox, polynomiální interakce, embeddingy; do pipeline, aby nedošlo k úniku informací.
Rozdělení dat: trenovací/validační/testovací sady; u časových řad time series split s respektováním kauzality.

Rozdělení a validační strategie

Hold-out: jednoduché oddělení (např. 70/15/15); rychlé, ale vyšší rozptyl odhadu.
k-skládaná křížová validace: stabilnější odhady; u nevyvážených tříd stratifikovat.
Nested cross-validation: korektní výběr hyperparametrů bez optimism bias (vnitřní smyčka pro ladění, vnější pro odhad).
TimeSeries CV: postupné rozšiřování oken (expanding/rolling), žádné míchání budoucnosti do minulosti.

Trénovací cíle a ztrátové funkce

Klasifikace: log-loss (NLL), hinge, focal loss (pro nevyváženost), Brier score (kalibrace pravděpodobností).
Regrese: MSE (citlivé na outliery), MAE (robustnější), Huber, quantile loss (predikce kvantilů).
Pořadí/ranking: pairwise/listwise loss (LambdaRank, ListNet) při optimalizaci NDCG/MAP.
Generativní/NLP/vision: křížová entropie, Dice/IoU pro segmentaci, FID/KID pro kvalitu generovaných obrazů, BLEU/ROUGE/METEOR/BERTScore pro text.

Optimalizace a regulace modelu

Optimalizátory: SGD s momentum, Adam/AdamW, RMSProp; learning-rate schedule (cosine, step, one-cycle).
Regularizace: L2 (weight decay), L1 (sparzita), early stopping, dropout, data augmentation, mixup/cutmix.
Bagging/boosting: Random Forest, Gradient Boosting (XGBoost/LightGBM/CatBoost), Stacking/Ensembling.
Kalibrace: Plattova regrese, isotonic regression, teplotní škálování pro pravděpodobnosti.

Ladění hyperparametrů

Grid/Random search: jednoduché baseline strategie; random bývá efektivnější při mnoha dimenzích.
Bayesovská optimalizace: Gaussian Processes, TPE; vzorkování slibných oblastí prostoru.
Hyperband/ASHA: adaptivní alokace výpočetního rozpočtu, multi-fidelity ohodnocení (časné zastavení slabých kandidátů).
Praktika: definovat search space s log-škálami; měřit na CV; pečlivě logovat experimenty (mlflow, wandb).

Metodiky prevence úniku informací (data leakage)

Používat pipeline: fit/transform výlučně na trénovacích základech uvnitř CV foldů.
Nesdílet statistiky (škálování, imputace, selekce rysů) mezi train a valid/test.
Pečlivě nakládat s target encodingem (out-of-fold schéma); pozor na časové závislosti.

Metriky klasifikace a jejich interpretace

Přesnost (Accuracy): vhodná při vyvážených třídách; zavádějící u vzácných událostí.
Precision, Recall, F1: trade-off mezi falešně pozitivními a negativními; macro/micro/weighted agregace.
ROC-AUC: nezávislá na prahu, ale může nadhodnocovat výkon u nesymetrických nákladů; PR-AUC vhodnější u rare events.
Confusion matrix a cost-sensitive metriky: očekávané náklady, optimalizace prahu na byznys KPI.

Metriky pro regresi a pravděpodobnostní výstupy

RMSE/MAE: chyby v jednotkách cílové proměnné; MAE robustnější k outlierům.
R²: podíl vysvětlené variability; interpretovat s opatrností mimo lineární kontext.
NLL/Brier: kvalita pravděpodobností; kalibrační křivky a reliabilitní diagramy.
Pinball loss a Winkler score pro kvantilové a intervalové predikce.

Nastavení rozhodovacího prahu a cost-sensitive učení

Optimalizace prahu na validačních datech podle F1, Youden indexu, nebo podle oč. zisku/ztráty.
Kostní matice (misclassification costs), váhování tříd, focal loss a řízený sampling (SMOTE, undersampling).

Nejistoty, intervaly spolehlivosti a statistická významnost

Intervaly: bootstrap nad vzorky či foldy (percentil/BCa), Wilsonovy intervaly pro přesnost.
Testy: párový t-test/McNemar (závislé odhady), randomizovaný test permutací; pozor na závislost mezi foldy.
Stability analysis: variabilita metrik napříč splitty/foldy, model robustness k šumu.

Analýza chyb a diagnostika modelu

Segmentace výkonu podle skupin (věk, region, třída produktu) – hledání slabin a bias.
Learning curves: výkon vs. velikost dat (pod/overfitting), odhad přínosu dalšího sběru dat.
Confusion-driven review: audit FP/FN se zpětnou vazbou pro feature engineering nebo labely.
Explainability: SHAP/Permutation importance, partial dependence, ablace rysů.

Trénink ve velkém měřítku

Distribuované učení: data/model parallelism, ZeRO, gradient checkpointing, mixed precision (FP16/bfloat16).
Check-pointing a early stopping s triggery na validační metrice; ReduceLROnPlateau.
Regularizační triky: label smoothing, stochastic depth, weight averaging (SWA), EMA vah.

Fairness, bias a robustnost

Fairness metriky: demographic parity, equalized odds, equal opportunity; měřit po skupinách.
Robustnost: odolnost na šum/OOD vzorky, test-time augmentation; adversariální testy podle domény.
Kalibrace napříč skupinami: reliabilitní křivky per segment, re-kalibrace.

Drift, OOD detekce a monitoring v produkci

Data drift (P(x)) a koncept drift (P(y|x)): PSI/KL divergence, srovnání rozdělení rysů/reziduí.
OOD detekce: detektory hustoty, Mahalanobis distance, ensembling/MC Dropout pro nejistotu.
Monitorování: metriky výkonu, byznys KPI, latence, využití zdrojů; zpětný sběr labelů a re-tréninkové cykly.

Reprodukovatelnost a MLOps

Seeds a determinismus: fixace náhodnosti (numpy/TF/PyTorch), kontrola PSL/BLAS determinismu.
Provenience: verzování dat a kódu, artefakty modelů, dependency lock (poetry/conda-lock).
Experiment tracking: parametry, metriky, grafy učení, model registry; CI/CD pro trénink i nasazení.
Dokumentace: datasheety modelů, model cards, rizika a omezení.

Specifika pro nestrukturovaná data

Obraz: augmentace (flip, crop, color jitter), metriky top-1/top-5, mAP, IoU; trénink s transfer learningem.
Text: tokenizace, subwordy, pretraining/fine-tuning; metriky (F1, BLEU/ROUGE), toxicity/bias testy.
Zvuk/časové řady: spectrogramy, augmentace (SpecAugment), metriky CER/WER, DTW pro řady.

Typické pasti a jak se jim vyhnout

Data leakage skrze společné škálování/target encoding; vždy fit pouze na tréninku v rámci foldu.
Overfitting na validační sadu množstvím pokusů; použijte nested CV nebo závěrečný test set.
Nesprávná metrika vůči byznys cíli; nejdřív definujte nákladovou funkci a prahování.
Nereprezentativní split: absence stratifikace, špatná časová separace, group leakage (stejný subjekt v train i val).

Postup „krok za krokem“ pro robustní trénink a evaluaci

Definujte cílovou metodu hodnocení a akceptační kritéria (metrika, CI, byznys náklady).
Připravte pipeline předzpracování s ochranou proti leakům; zvolte odpovídající split.
Zvolte baseline model a ztrátovou funkci; monitorujte learning curves.
Proveďte hyperparametrický průzkum (random/Bayes) a validujte pomocí CV.
Zajistěte kalibraci pravděpodobností a optimalizaci prahu na validační sadě.
Vyhodnoťte na zamčeném test setu s intervaly spolehlivosti a statistickým srovnáním.
Proveďte analýzu chyb, fairness/robustness audit a dokumentaci modelu.
Nasaďte s monitoringem driftu, sběrem labelů a plánem re-tréninku.

Checklist před produkčním nasazením

Metriky splňují cíle, k dispozici jsou CI a výsledky testů významnosti.
Pipeline je bez úniků, kroky fit/transform izolované v rámci CV.
Model je kalibrovaný, prahy optimalizované na nákladové funkci.
Zajištěny reproducibilní běhy (seed, verze dat/knihoven), zapsané experimenty.
Monitoring driftu a metrik, alerty, fall-back strategie a postup roll-back.

Závěr

Úspěšné trénování a evaluace přesnosti vyžadují systematický přístup: kvalitní data a split, vhodnou ztrátu a metriky, důslednou validaci bez leaků, statistické zajištění výsledků, kalibraci a robustní provozní rámec. Teprve souhra těchto prvků poskytuje modely, které jsou nejen přesné v laboratorních podmínkách, ale i spolehlivé, férové a udržitelné v reálném provozu.

Samuel Salaj komentoval SCRUM
Filip Sichman komentoval Parcela
Šajno komentoval Odvolateľný akreditív
Šajto komentoval AVV
DawnBreaker komentoval Spoločnosť s ručením obmedzeným
Ellen komentoval Úverová kalkulačka
Julius Simsky komentoval Priemysel
Dwaewiel komentoval IOST (IOST)
Veronika B. komentoval Finančný trh
Peter Trnka komentoval Počítačový vírus