Metody analýzy dat – Ekonomická encyklopédia

Rámec metod analýzy dat

Analýza dat zahrnuje postupy od popisné (descriptive) přes diagnostickou (diagnostic) a prediktivní (predictive) až po preskriptivní (prescriptive) analytiku. Každá úroveň odpovídá na jinou otázku: co se stalo, proč se to stalo, co se stane a co máme udělat. Metodický postup obvykle zahrnuje přípravu dat, explorativní analýzu (EDA), modelování, validaci a interpretaci s ohledem na nejistotu, rizika a etiku.

Správa dat a příprava: kvalita je klíč

Čištění: odstranění duplicit, opravy typografických chyb, harmonizace kódů a jednotek.
Ošetření chybějících hodnot: listwise deletion, imputace (medián, MICE, KNN), indikátory chybění.
Normalizace a škálování: standardizace (z-score), min-max, robustní škálování pro metody citlivé na rozsah.
Feature engineering: doménové transformace (log, Box-Cox), interakce, polynomy, časové lagy a roll-upy.
Datové typy: numerické vs. kategorické (one-hot, target encoding), text (tokenizace, vektorizace), grafová data (adjacency, embeddings).
Data governance: rodokmen (provenience), verze datasetů, katalog a přístupová práva; měření kvality (completeness, timeliness, validity).

Explorativní analýza (EDA): porozumění před modely

Distribuce: histogramy, KDE, kvantilové grafy, odhady momentů (průměr, medián, šikmost, špičatost).
Vztahy: korelace (Pearson/Spearman/Kendall), párové grafy, heatmapy, partial dependence už v rané fázi.
Atypické hodnoty: boxplot, IQR, robustní metriky (MCD), izolace odlehlostí (Isolation Forest) jako vodítko.
Dimenzionalita: PCA, t-SNE/UMAP pro vizualizaci struktur a klastrů.
Data drift: porovnání trénink vs. produkce (PSI, KL divergence), sezónnost a strukturální zlomy.

Popisná analytika: co se stalo

Agregace: součty, průměry, procenta, pivot tabulky, group-by nad klíčovými dimenzemi.
Časové řady: klouzavé průměry, sezónní indexy, dekompozice (trend, sezónnost, rezidua).
Vizualizace: sloupcové/čárové grafy, treemapy, vodopády, sankey diagramy pro toky.
Distribuční pohled: decily/kvartily, Lorenzova křivka a Giniho koeficient (nerovnoměrnost).

Diagnostická analytika: proč se to stalo

Asociační analýza: kontingenční tabulky, chí-kvadrát testy, Cramérův V, lift/conviction u pravidel.
Regrese s explanací: lineární/logistická regrese, GLM (Poisson, Gamma), LASSO/Ridge/Elastic Net; koeficienty a jejich intervaly spolehlivosti.
Kauzální inference: rozdíl v rozdílech (DiD), propensity score matching/weighting, instrumentální proměnné, RCT/AB testy.
Shapley a rozklad variance: ANOVA, Shapley values pro model-agnostickou explanaci.
Segmentace příčin: rozhodovací stromy, CHAID; root cause analysis s event logy (process mining).

Prediktivní analytika: co se stane

Tabulková data: gradient boosting (XGBoost, LightGBM, CatBoost), náhodné lesy, neuronové sítě (MLP).
Časové řady: ARIMA/SARIMA, ETS, Prophet, TBATS, global modely (RNN/LSTM/Temporal Fusion Transformer), křížová validace po čase (rolling origin).
Text: klasifikace a NER s vektory (TF-IDF) i s kontextovými embeddingy (transformery); metriky F1/ROC-AUC/PR-AUC.
Obraz a zvuk: CNN/ViT, spectrogramy + CNN/CRNN; augmentace a transfer learning.
Pravděpodobnostní predikce: kvantilové modely, pinball loss, predikční intervaly, bagging/bootstrapping pro nejistotu.

Preskriptivní analytika: co máme udělat

Optimalizace: lineární/smíšeně celočíselné programování (LP/MIP), heuristiky (SA, GA), kombinatorika (VRP, knapsack).
Reinforcement learning: řízení politik, multi-armed bandit, kontextové bandity pro personalizaci.
Simulace: what-if scénáře, Monte Carlo pro kvantifikaci rizik, diskrétní simulace procesů.

Metodiky ověřování: aby modely nelhaly

Rozdělení dat: trénink/validace/test, nested cross-validation pro výběr hyperparametrů.
Leakage: striktní časové oddělení, odstranění cílových proxy, kontrola featur vzniklých agregací.
Kalibrace: Platt/Isotonic, Brier score pro pravděpodobnosti.
Stabilita: test driftu, výkonnost v podskupinách (subgroup analysis), robustnost na šum.

Metriky výkonu: různé cíle, různé míry

Regrese: MAE, RMSE, MAPE (pozor u nul), R² a adj. R², pinball loss pro kvantily.
Klasifikace: accuracy vs. F1, ROC-AUC vs. PR-AUC (u nevyvážených tříd), log-loss, specifita/senzitivita.
Časové řady: sMAPE, MASE, WAPE; vyhodnocení po horizontech a sezónách.
Byznys metriky: zisk/CLV, náklady na omyl typu I/II, uplift metriky u kauzálních modelů.

Časové řady: zvláštní pozornost

Stacionarita: ADF/KPSS testy, diferenciace, Box-Cox, sezónní diferenciace.
Sezónnost a svátky: Fourierovy členy, dummy proměnné, kalendářní efekty.
Hierarchie: bottom-up, top-down, optimal reconciliation (MinT) pro konzistenci napříč úrovněmi.

Klastry a redukce dimenzí

Nekontrolované učení: k-means, k-medoids, DBSCAN/HDBSCAN; validace siluetou, Davies-Bouldin indexem.
Redukce: PCA (lineární), NMF (aditivní témata), autoenkodéry (nelineární), UMAP/t-SNE (vizualizace).

Kauzální analýza a experimenty

Randomizované experimenty: AB/n-arm testy, stratifikace, sekvenční analýza (alpha spending), CUPED pro snížení variance.
Observační studie: back-door kritérium, DAGy pro identifikaci, doubly robust odhady (AIPW), synthetic control.

Interpretovatelnost a vysvětlitelnost

Globální pohled: feature importance (permutace), PDP/ICE, ALE grafy.
Lokální pohled: LIME, SHAP, counterfactuals; audit prediktivních pravidel.
Stabilita vysvětlení: test konzistence napříč resamplem a verzemi modelu.

Etika, spravedlnost a ochrana soukromí

Bias a fairness: equalized odds, demographic parity, disparate impact; pre/in/post-processing mitigace.
Soukromí: minimalizace dat, pseudonymizace, diferenciální ochrana, federované učení.
Compliance: auditovatelnost, vysledovatelnost rozhodnutí, model cards a datasheets for datasets.

Produkční nasazení: MLOps a DataOps

Pipeline: deklarativní DAG (Airflow, Dagster), verze dat/modelů (DVC/MLflow), feature store.
Monitorování: kvalita dat, data drift, concept drift, metriky latence a chyb, SLA/SLO.
Řízení verzí a nasazení: canary/blue-green, shadow deployment, rollback, pravidelné re-tréninky.

Škálování a výpočet

Distribuované zpracování: Spark/Flink/Dask pro ETL a streamy; map-reduce vs. DAG-based grafy.
Akcelerace: GPU/NPU u hlubokých sítí, vektorové instrukce (SIMD) a kvantizace u inferencí.
On-prem vs. cloud: citlivost dat, náklady, elasticita; hybridní orchestrátory a lakehouse architektury.

Typické chyby a prevence

Přeučení (overfitting) kvůli slabé validaci – řešení: regularizace, křížová validace, jednodušší model.
Data leakage – přísné oddělení datových sad, časová validace, audit featur.
Nesoulad metrik s cíli – definice byznys KPI a nákladů na chyby, threshold tuning.
Ignorování nejistoty – intervaly, bootstrap, predikční rozptyl, scénáře.
Opomíjení kauzality u zásahů – používat experimenty nebo kauzální metody, ne jen korelaci.

Výběr metod podle otázky a dat

Popis & monitoring: dashboardy, KPI, statistické řízení procesů (SPC, CUSUM, EWMA).
Diagnostika: GLM, stromy s explanací, kauzální grafy a matching.
Predikce: boosting, neurální sítě, specializované modely časových řad.
Preskripce: optimalizace, RL, simulace s Monte Carlo.

Kontrolní seznam analytického projektu

Definujte otázku a hypotézy, rozhodněte o úrovni analytiky (popisná/diagnostická/prediktivní/preskriptivní).
Zajistěte data governance, kvalitu a přístup; připravte datový slovník.
Proveďte EDA, odhalení odlehlostí, relací a driftu.
Zvolte modely a metriky v souladu s cíli a náklady chyb.
Nastavte validaci a kalibraci s ohledem na čas a leakage.
Zajistěte interpretovatelnost, fairness a dokumentaci.
Navrhněte nasazení a monitoring (MLOps), plán re-tréninků a správy verzí.
Vyhodnoťte nejistotu a připravte scénáře rozhodování.

Závěr: spojení metod v hodnototvorném řetězci

Úspěšná analytika začíná kvalitními daty a jasnou otázkou, pokračuje disciplinovanou EDA a vhodnou kombinací popisných, diagnostických a prediktivních metod a končí preskriptivním doporučením. Kritické je měření nejistoty, spravedlnost modelů a produkční disciplína při nasazení. Vzájemné provázání těchto kroků umožňuje přeměnit data na robustní rozhodnutí s prokazatelným dopadem.

Samuel Salaj komentoval SCRUM
Filip Sichman komentoval Parcela
Šajno komentoval Odvolateľný akreditív
Šajto komentoval AVV
DawnBreaker komentoval Spoločnosť s ručením obmedzeným
Ellen komentoval Úverová kalkulačka
Julius Simsky komentoval Priemysel
Dwaewiel komentoval IOST (IOST)
Veronika B. komentoval Finančný trh
Peter Trnka komentoval Počítačový vírus