Metody analýzy dat

Metody analýzy dat

Rámec metod analýzy dat

Analýza dat zahrnuje postupy od popisné (descriptive) přes diagnostickou (diagnostic) a prediktivní (predictive) až po preskriptivní (prescriptive) analytiku. Každá úroveň odpovídá na jinou otázku: co se stalo, proč se to stalo, co se stane a co máme udělat. Metodický postup obvykle zahrnuje přípravu dat, explorativní analýzu (EDA), modelování, validaci a interpretaci s ohledem na nejistotu, rizika a etiku.

Správa dat a příprava: kvalita je klíč

  • Čištění: odstranění duplicit, opravy typografických chyb, harmonizace kódů a jednotek.
  • Ošetření chybějících hodnot: listwise deletion, imputace (medián, MICE, KNN), indikátory chybění.
  • Normalizace a škálování: standardizace (z-score), min-max, robustní škálování pro metody citlivé na rozsah.
  • Feature engineering: doménové transformace (log, Box-Cox), interakce, polynomy, časové lagy a roll-upy.
  • Datové typy: numerické vs. kategorické (one-hot, target encoding), text (tokenizace, vektorizace), grafová data (adjacency, embeddings).
  • Data governance: rodokmen (provenience), verze datasetů, katalog a přístupová práva; měření kvality (completeness, timeliness, validity).

Explorativní analýza (EDA): porozumění před modely

  • Distribuce: histogramy, KDE, kvantilové grafy, odhady momentů (průměr, medián, šikmost, špičatost).
  • Vztahy: korelace (Pearson/Spearman/Kendall), párové grafy, heatmapy, partial dependence už v rané fázi.
  • Atypické hodnoty: boxplot, IQR, robustní metriky (MCD), izolace odlehlostí (Isolation Forest) jako vodítko.
  • Dimenzionalita: PCA, t-SNE/UMAP pro vizualizaci struktur a klastrů.
  • Data drift: porovnání trénink vs. produkce (PSI, KL divergence), sezónnost a strukturální zlomy.

Popisná analytika: co se stalo

  • Agregace: součty, průměry, procenta, pivot tabulky, group-by nad klíčovými dimenzemi.
  • Časové řady: klouzavé průměry, sezónní indexy, dekompozice (trend, sezónnost, rezidua).
  • Vizualizace: sloupcové/čárové grafy, treemapy, vodopády, sankey diagramy pro toky.
  • Distribuční pohled: decily/kvartily, Lorenzova křivka a Giniho koeficient (nerovnoměrnost).

Diagnostická analytika: proč se to stalo

  • Asociační analýza: kontingenční tabulky, chí-kvadrát testy, Cramérův V, lift/conviction u pravidel.
  • Regrese s explanací: lineární/logistická regrese, GLM (Poisson, Gamma), LASSO/Ridge/Elastic Net; koeficienty a jejich intervaly spolehlivosti.
  • Kauzální inference: rozdíl v rozdílech (DiD), propensity score matching/weighting, instrumentální proměnné, RCT/AB testy.
  • Shapley a rozklad variance: ANOVA, Shapley values pro model-agnostickou explanaci.
  • Segmentace příčin: rozhodovací stromy, CHAID; root cause analysis s event logy (process mining).

Prediktivní analytika: co se stane

  • Tabulková data: gradient boosting (XGBoost, LightGBM, CatBoost), náhodné lesy, neuronové sítě (MLP).
  • Časové řady: ARIMA/SARIMA, ETS, Prophet, TBATS, global modely (RNN/LSTM/Temporal Fusion Transformer), křížová validace po čase (rolling origin).
  • Text: klasifikace a NER s vektory (TF-IDF) i s kontextovými embeddingy (transformery); metriky F1/ROC-AUC/PR-AUC.
  • Obraz a zvuk: CNN/ViT, spectrogramy + CNN/CRNN; augmentace a transfer learning.
  • Pravděpodobnostní predikce: kvantilové modely, pinball loss, predikční intervaly, bagging/bootstrapping pro nejistotu.

Preskriptivní analytika: co máme udělat

  • Optimalizace: lineární/smíšeně celočíselné programování (LP/MIP), heuristiky (SA, GA), kombinatorika (VRP, knapsack).
  • Reinforcement learning: řízení politik, multi-armed bandit, kontextové bandity pro personalizaci.
  • Simulace: what-if scénáře, Monte Carlo pro kvantifikaci rizik, diskrétní simulace procesů.

Metodiky ověřování: aby modely nelhaly

  • Rozdělení dat: trénink/validace/test, nested cross-validation pro výběr hyperparametrů.
  • Leakage: striktní časové oddělení, odstranění cílových proxy, kontrola featur vzniklých agregací.
  • Kalibrace: Platt/Isotonic, Brier score pro pravděpodobnosti.
  • Stabilita: test driftu, výkonnost v podskupinách (subgroup analysis), robustnost na šum.

Metriky výkonu: různé cíle, různé míry

  • Regrese: MAE, RMSE, MAPE (pozor u nul), R² a adj. R², pinball loss pro kvantily.
  • Klasifikace: accuracy vs. F1, ROC-AUC vs. PR-AUC (u nevyvážených tříd), log-loss, specifita/senzitivita.
  • Časové řady: sMAPE, MASE, WAPE; vyhodnocení po horizontech a sezónách.
  • Byznys metriky: zisk/CLV, náklady na omyl typu I/II, uplift metriky u kauzálních modelů.

Časové řady: zvláštní pozornost

  • Stacionarita: ADF/KPSS testy, diferenciace, Box-Cox, sezónní diferenciace.
  • Sezónnost a svátky: Fourierovy členy, dummy proměnné, kalendářní efekty.
  • Hierarchie: bottom-up, top-down, optimal reconciliation (MinT) pro konzistenci napříč úrovněmi.

Klastry a redukce dimenzí

  • Nekontrolované učení: k-means, k-medoids, DBSCAN/HDBSCAN; validace siluetou, Davies-Bouldin indexem.
  • Redukce: PCA (lineární), NMF (aditivní témata), autoenkodéry (nelineární), UMAP/t-SNE (vizualizace).

Kauzální analýza a experimenty

  • Randomizované experimenty: AB/n-arm testy, stratifikace, sekvenční analýza (alpha spending), CUPED pro snížení variance.
  • Observační studie: back-door kritérium, DAGy pro identifikaci, doubly robust odhady (AIPW), synthetic control.

Interpretovatelnost a vysvětlitelnost

  • Globální pohled: feature importance (permutace), PDP/ICE, ALE grafy.
  • Lokální pohled: LIME, SHAP, counterfactuals; audit prediktivních pravidel.
  • Stabilita vysvětlení: test konzistence napříč resamplem a verzemi modelu.

Etika, spravedlnost a ochrana soukromí

  • Bias a fairness: equalized odds, demographic parity, disparate impact; pre/in/post-processing mitigace.
  • Soukromí: minimalizace dat, pseudonymizace, diferenciální ochrana, federované učení.
  • Compliance: auditovatelnost, vysledovatelnost rozhodnutí, model cards a datasheets for datasets.

Produkční nasazení: MLOps a DataOps

  • Pipeline: deklarativní DAG (Airflow, Dagster), verze dat/modelů (DVC/MLflow), feature store.
  • Monitorování: kvalita dat, data drift, concept drift, metriky latence a chyb, SLA/SLO.
  • Řízení verzí a nasazení: canary/blue-green, shadow deployment, rollback, pravidelné re-tréninky.

Škálování a výpočet

  • Distribuované zpracování: Spark/Flink/Dask pro ETL a streamy; map-reduce vs. DAG-based grafy.
  • Akcelerace: GPU/NPU u hlubokých sítí, vektorové instrukce (SIMD) a kvantizace u inferencí.
  • On-prem vs. cloud: citlivost dat, náklady, elasticita; hybridní orchestrátory a lakehouse architektury.

Typické chyby a prevence

  • Přeučení (overfitting) kvůli slabé validaci – řešení: regularizace, křížová validace, jednodušší model.
  • Data leakage – přísné oddělení datových sad, časová validace, audit featur.
  • Nesoulad metrik s cíli – definice byznys KPI a nákladů na chyby, threshold tuning.
  • Ignorování nejistoty – intervaly, bootstrap, predikční rozptyl, scénáře.
  • Opomíjení kauzality u zásahů – používat experimenty nebo kauzální metody, ne jen korelaci.

Výběr metod podle otázky a dat

  • Popis & monitoring: dashboardy, KPI, statistické řízení procesů (SPC, CUSUM, EWMA).
  • Diagnostika: GLM, stromy s explanací, kauzální grafy a matching.
  • Predikce: boosting, neurální sítě, specializované modely časových řad.
  • Preskripce: optimalizace, RL, simulace s Monte Carlo.

Kontrolní seznam analytického projektu

  1. Definujte otázku a hypotézy, rozhodněte o úrovni analytiky (popisná/diagnostická/prediktivní/preskriptivní).
  2. Zajistěte data governance, kvalitu a přístup; připravte datový slovník.
  3. Proveďte EDA, odhalení odlehlostí, relací a driftu.
  4. Zvolte modely a metriky v souladu s cíli a náklady chyb.
  5. Nastavte validaci a kalibraci s ohledem na čas a leakage.
  6. Zajistěte interpretovatelnost, fairness a dokumentaci.
  7. Navrhněte nasazení a monitoring (MLOps), plán re-tréninků a správy verzí.
  8. Vyhodnoťte nejistotu a připravte scénáře rozhodování.

Závěr: spojení metod v hodnototvorném řetězci

Úspěšná analytika začíná kvalitními daty a jasnou otázkou, pokračuje disciplinovanou EDA a vhodnou kombinací popisných, diagnostických a prediktivních metod a končí preskriptivním doporučením. Kritické je měření nejistoty, spravedlnost modelů a produkční disciplína při nasazení. Vzájemné provázání těchto kroků umožňuje přeměnit data na robustní rozhodnutí s prokazatelným dopadem.

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *