Rámec metod analýzy dat
Analýza dat zahrnuje postupy od popisné (descriptive) přes diagnostickou (diagnostic) a prediktivní (predictive) až po preskriptivní (prescriptive) analytiku. Každá úroveň odpovídá na jinou otázku: co se stalo, proč se to stalo, co se stane a co máme udělat. Metodický postup obvykle zahrnuje přípravu dat, explorativní analýzu (EDA), modelování, validaci a interpretaci s ohledem na nejistotu, rizika a etiku.
Správa dat a příprava: kvalita je klíč
- Čištění: odstranění duplicit, opravy typografických chyb, harmonizace kódů a jednotek.
- Ošetření chybějících hodnot: listwise deletion, imputace (medián, MICE, KNN), indikátory chybění.
- Normalizace a škálování: standardizace (z-score), min-max, robustní škálování pro metody citlivé na rozsah.
- Feature engineering: doménové transformace (log, Box-Cox), interakce, polynomy, časové lagy a roll-upy.
- Datové typy: numerické vs. kategorické (one-hot, target encoding), text (tokenizace, vektorizace), grafová data (adjacency, embeddings).
- Data governance: rodokmen (provenience), verze datasetů, katalog a přístupová práva; měření kvality (completeness, timeliness, validity).
Explorativní analýza (EDA): porozumění před modely
- Distribuce: histogramy, KDE, kvantilové grafy, odhady momentů (průměr, medián, šikmost, špičatost).
- Vztahy: korelace (Pearson/Spearman/Kendall), párové grafy, heatmapy, partial dependence už v rané fázi.
- Atypické hodnoty: boxplot, IQR, robustní metriky (MCD), izolace odlehlostí (Isolation Forest) jako vodítko.
- Dimenzionalita: PCA, t-SNE/UMAP pro vizualizaci struktur a klastrů.
- Data drift: porovnání trénink vs. produkce (PSI, KL divergence), sezónnost a strukturální zlomy.
Popisná analytika: co se stalo
- Agregace: součty, průměry, procenta, pivot tabulky, group-by nad klíčovými dimenzemi.
- Časové řady: klouzavé průměry, sezónní indexy, dekompozice (trend, sezónnost, rezidua).
- Vizualizace: sloupcové/čárové grafy, treemapy, vodopády, sankey diagramy pro toky.
- Distribuční pohled: decily/kvartily, Lorenzova křivka a Giniho koeficient (nerovnoměrnost).
Diagnostická analytika: proč se to stalo
- Asociační analýza: kontingenční tabulky, chí-kvadrát testy, Cramérův V, lift/conviction u pravidel.
- Regrese s explanací: lineární/logistická regrese, GLM (Poisson, Gamma), LASSO/Ridge/Elastic Net; koeficienty a jejich intervaly spolehlivosti.
- Kauzální inference: rozdíl v rozdílech (DiD), propensity score matching/weighting, instrumentální proměnné, RCT/AB testy.
- Shapley a rozklad variance: ANOVA, Shapley values pro model-agnostickou explanaci.
- Segmentace příčin: rozhodovací stromy, CHAID; root cause analysis s event logy (process mining).
Prediktivní analytika: co se stane
- Tabulková data: gradient boosting (XGBoost, LightGBM, CatBoost), náhodné lesy, neuronové sítě (MLP).
- Časové řady: ARIMA/SARIMA, ETS, Prophet, TBATS, global modely (RNN/LSTM/Temporal Fusion Transformer), křížová validace po čase (rolling origin).
- Text: klasifikace a NER s vektory (TF-IDF) i s kontextovými embeddingy (transformery); metriky F1/ROC-AUC/PR-AUC.
- Obraz a zvuk: CNN/ViT, spectrogramy + CNN/CRNN; augmentace a transfer learning.
- Pravděpodobnostní predikce: kvantilové modely, pinball loss, predikční intervaly, bagging/bootstrapping pro nejistotu.
Preskriptivní analytika: co máme udělat
- Optimalizace: lineární/smíšeně celočíselné programování (LP/MIP), heuristiky (SA, GA), kombinatorika (VRP, knapsack).
- Reinforcement learning: řízení politik, multi-armed bandit, kontextové bandity pro personalizaci.
- Simulace: what-if scénáře, Monte Carlo pro kvantifikaci rizik, diskrétní simulace procesů.
Metodiky ověřování: aby modely nelhaly
- Rozdělení dat: trénink/validace/test, nested cross-validation pro výběr hyperparametrů.
- Leakage: striktní časové oddělení, odstranění cílových proxy, kontrola featur vzniklých agregací.
- Kalibrace: Platt/Isotonic, Brier score pro pravděpodobnosti.
- Stabilita: test driftu, výkonnost v podskupinách (subgroup analysis), robustnost na šum.
Metriky výkonu: různé cíle, různé míry
- Regrese: MAE, RMSE, MAPE (pozor u nul), R² a adj. R², pinball loss pro kvantily.
- Klasifikace: accuracy vs. F1, ROC-AUC vs. PR-AUC (u nevyvážených tříd), log-loss, specifita/senzitivita.
- Časové řady: sMAPE, MASE, WAPE; vyhodnocení po horizontech a sezónách.
- Byznys metriky: zisk/CLV, náklady na omyl typu I/II, uplift metriky u kauzálních modelů.
Časové řady: zvláštní pozornost
- Stacionarita: ADF/KPSS testy, diferenciace, Box-Cox, sezónní diferenciace.
- Sezónnost a svátky: Fourierovy členy, dummy proměnné, kalendářní efekty.
- Hierarchie: bottom-up, top-down, optimal reconciliation (MinT) pro konzistenci napříč úrovněmi.
Klastry a redukce dimenzí
- Nekontrolované učení: k-means, k-medoids, DBSCAN/HDBSCAN; validace siluetou, Davies-Bouldin indexem.
- Redukce: PCA (lineární), NMF (aditivní témata), autoenkodéry (nelineární), UMAP/t-SNE (vizualizace).
Kauzální analýza a experimenty
- Randomizované experimenty: AB/n-arm testy, stratifikace, sekvenční analýza (alpha spending), CUPED pro snížení variance.
- Observační studie: back-door kritérium, DAGy pro identifikaci, doubly robust odhady (AIPW), synthetic control.
Interpretovatelnost a vysvětlitelnost
- Globální pohled: feature importance (permutace), PDP/ICE, ALE grafy.
- Lokální pohled: LIME, SHAP, counterfactuals; audit prediktivních pravidel.
- Stabilita vysvětlení: test konzistence napříč resamplem a verzemi modelu.
Etika, spravedlnost a ochrana soukromí
- Bias a fairness: equalized odds, demographic parity, disparate impact; pre/in/post-processing mitigace.
- Soukromí: minimalizace dat, pseudonymizace, diferenciální ochrana, federované učení.
- Compliance: auditovatelnost, vysledovatelnost rozhodnutí, model cards a datasheets for datasets.
Produkční nasazení: MLOps a DataOps
- Pipeline: deklarativní DAG (Airflow, Dagster), verze dat/modelů (DVC/MLflow), feature store.
- Monitorování: kvalita dat, data drift, concept drift, metriky latence a chyb, SLA/SLO.
- Řízení verzí a nasazení: canary/blue-green, shadow deployment, rollback, pravidelné re-tréninky.
Škálování a výpočet
- Distribuované zpracování: Spark/Flink/Dask pro ETL a streamy; map-reduce vs. DAG-based grafy.
- Akcelerace: GPU/NPU u hlubokých sítí, vektorové instrukce (SIMD) a kvantizace u inferencí.
- On-prem vs. cloud: citlivost dat, náklady, elasticita; hybridní orchestrátory a lakehouse architektury.
Typické chyby a prevence
- Přeučení (overfitting) kvůli slabé validaci – řešení: regularizace, křížová validace, jednodušší model.
- Data leakage – přísné oddělení datových sad, časová validace, audit featur.
- Nesoulad metrik s cíli – definice byznys KPI a nákladů na chyby, threshold tuning.
- Ignorování nejistoty – intervaly, bootstrap, predikční rozptyl, scénáře.
- Opomíjení kauzality u zásahů – používat experimenty nebo kauzální metody, ne jen korelaci.
Výběr metod podle otázky a dat
- Popis & monitoring: dashboardy, KPI, statistické řízení procesů (SPC, CUSUM, EWMA).
- Diagnostika: GLM, stromy s explanací, kauzální grafy a matching.
- Predikce: boosting, neurální sítě, specializované modely časových řad.
- Preskripce: optimalizace, RL, simulace s Monte Carlo.
Kontrolní seznam analytického projektu
- Definujte otázku a hypotézy, rozhodněte o úrovni analytiky (popisná/diagnostická/prediktivní/preskriptivní).
- Zajistěte data governance, kvalitu a přístup; připravte datový slovník.
- Proveďte EDA, odhalení odlehlostí, relací a driftu.
- Zvolte modely a metriky v souladu s cíli a náklady chyb.
- Nastavte validaci a kalibraci s ohledem na čas a leakage.
- Zajistěte interpretovatelnost, fairness a dokumentaci.
- Navrhněte nasazení a monitoring (MLOps), plán re-tréninků a správy verzí.
- Vyhodnoťte nejistotu a připravte scénáře rozhodování.
Závěr: spojení metod v hodnototvorném řetězci
Úspěšná analytika začíná kvalitními daty a jasnou otázkou, pokračuje disciplinovanou EDA a vhodnou kombinací popisných, diagnostických a prediktivních metod a končí preskriptivním doporučením. Kritické je měření nejistoty, spravedlnost modelů a produkční disciplína při nasazení. Vzájemné provázání těchto kroků umožňuje přeměnit data na robustní rozhodnutí s prokazatelným dopadem.