Kvalita dát

Kvalita dát

Prečo potrebujeme plán kvality dát

Plán kvality dát je riadiaci dokument, ktorý stanovuje vlastníctvo dát, presnú definíciu metrík kvality a systematiku validácií v dátovom pipeline. Jeho cieľom je zabezpečiť, aby dáta boli spoľahlivé, auditovateľné a použiteľné pre analytiku, reporting, AI/ML a prevádzkové procesy. Dokument tvorí základ pre dátovú správu (data governance), kontrakty medzi producentmi a konzumentmi dát, aj pre SLA/SLO metriky, podľa ktorých sa riadi prevádzka.

Rozsah a princípy plánu

  • Rozsah: zdrojové systémy, integračné vrstvy (ETL/ELT), dátové sklady/jazierka, semantická vrstva, reporty a API.
  • Princípy: „quality by design“, automatizácia, merateľnosť, transparentnosť, minimalizmus v metrikách (menej, ale dôležité), „shift-left“ validácie pri vstupe.
  • Riadenie rizika: sústredenie na kritické dátové domény (financie, zákazníci, súlad s reguláciou).

Model vlastníctva: roly a zodpovednosti

Jasné vlastníctvo eliminuje „bezprízorné dáta“ a urýchľuje riešenie incidentov. Odporúčaný model:

  • Data Owner (Biznis vlastník): schvaľuje definície, prahové hodnoty a akceptačné kritériá; rozhoduje o výnimkách.
  • Data Steward: kurátor kvality; spravuje katalóg, glosár a metriky; koordinuje nápravy.
  • Data Custodian (IT/Platforma): zabezpečuje infraštruktúru, automatizované testy a monitorovanie.
  • Data Producer: tím zdrojovej aplikácie; garantuje kvalitu na vstupe a dodržiavanie dátových kontraktov.
  • Data Consumer: BI/AI/prevádzka; hlási odchýlky, participuje na UAT a definícii biznis pravidiel.

RACI matica pre kvalitu dát

Aktivita Owner Steward Custodian Producer Consumer
Definícia metrík A R C C I
Nastavenie validácií C R A R I
Monitorovanie a alerty I R A C I
Incident management A R R C C
Schvaľovanie výnimiek A R C C I

Glosár a dátové kontrakty

Bez jednotného jazyka nie je stabilná kvalita. Plán vyžaduje:

  • Biznis glosár: definície entít (zákazník, objednávka), agregácií (výnos), periodicít a časovej platnosti.
  • Dátové kontrakty: schémy, typy, povinné polia, kardinality, SLAs na latenciu a aktualizáciu, pravidlá verziovania (schema evolution).

Taxonómia metrík kvality

  • Presnosť (Accuracy): miera súladu s realitou alebo referenčným zdrojom.
  • Úplnosť (Completeness): podiel vyplnených povinných polí a záznamov.
  • Jedinečnosť (Uniqueness): absencia duplicitných entít a kľúčov.
  • Platnosť (Validity): súlad s doménami hodnôt, regexmi, typmi, referenčnými tabuľkami.
  • Konzistentnosť (Consistency): súlad naprieč systémami/vrstvami (napr. sumy v DWH vs. ERP).
  • Včasnosť (Timeliness): oneskorenie voči dohodnutej latencii (SLA/SLO).
  • Integrita (Integrity): referenčná a transakčná integrita (FK, bilancie, rovnice).
  • Traceability: sledovateľnosť pôvodu (lineage), audit trail transformácií.

Šablóna definície metrík (príklad)

Názov metriky Definícia Vzorec Zdroj Prahy (Warn/Error) Periodicita Vlastník
Úplnosť e-mailu zákazníka Podiel riadkov s ne-NULL a ne-prázdnym e-mailom (počet_validných / počet_všetkých) × 100 % CRM.customers.email 95 % / 90 % denne Data Steward – Doména Zákazník
Platnosť formátu e-mailu Súlad s regex vzorom RFC-like počet_regex_ok / počet_všetkých CRM.customers.email 98 % / 95 % denne Data Steward – Doména Zákazník
Jedinečnosť zákazníckeho ID Podiel unikátnych customer_id count_distinct(customer_id) / count(*) CRM.customers.customer_id 100 % / 99,9 % nepretržite Owner – Komerčná prevádzka

Validácie: typy testov a kde ich spúšťať

  • Schémové testy: typy, povinnosť polí, dĺžky, enumy, primárne kľúče.
  • Referenčné testy: cudzie kľúče, mapovanie na referenčné tabuľky (krajiny, meny).
  • Biznis pravidlá: doménové logiky (napr. dátum faktúry ≤ dátum dodania), rovnice, bilancie.
  • Distribučné/anomálne testy: odchýlky v histogramoch, priemer/medián/σ, sezónnosť.
  • Lineage konzistencia: kontrola zachovania počtov a súm po transformáciách (source→staging→DWH→mart).
  • Contract testy na API/eventy: validácia payloadov, verzií a spätnej kompatibility.

Životný cyklus dátových validácií

  1. Návrh: identifikácia kritických polí a rizík; návrh pravidiel a prahov.
  2. Implementácia: infra testy v pipeline (ETL/ELT), build-time testy (CI), runtime monitorovanie.
  3. Kalibrácia prahov: A/B porovnanie, analýza historických rozdelení, sezónne výnimky.
  4. Prevádzka: alerty, dashboardy, incidenty, ticketing, nápravné opatrenia (CAPA).
  5. Revízia: kvartálne prehodnocovanie relevancie pravidiel a metrík.

Architektúra monitorovania kvality

  • Observabilita dát: metriky objemu, čerstvosti, schémových zmien, výpadkov.
  • Alerting: multi-úrovňové (INFO/WARN/ERROR), on-call rotácie, tichý režim pre plánované výpadky.
  • Dashboardy: domény × metriky × SLA/SLO; drill-down na tabuľky/stĺpce.
  • Audit trail: logy validácií, verzovanie pravidiel, podpisy release-ov, dôkaz o kontrole.

SLA, SLO a akceptačné kritériá

  • SLA (Service Level Agreement): záväzná dostupnosť a latencia (napr. „denné reporty do 08:00 s 99,5 % dostupnosťou“).
  • SLO (Service Level Objective): interné ciele kvality (napr. „≥ 97 % úplnosť kľúčových polí“).
  • Akceptačné kritériá: explicitné prahy, nad ktorými je dataset nasaditeľný do produkcie alebo report publikovateľný.

Riadenie incidentov kvality dát

Úroveň Popis Príklady Reakcia MTTA/MTTR cieľ
P1 – Kritický Vplyv na finančné/legálne výstupy Chybné výnosy v uzávierke Incident war-room, rollback, blok publikácie 15 min / 4 h
P2 – Vysoký Vplyv na kľúčové KPI Nekonzistentné predaje v DWH vs. ERP Hotfix, korektívne skripty 1 h / 1 deň
P3 – Stredný Lokálne anomálie Chýbajúce hodnoty v menšej subdoméne Backlog, plán nápravy 4 h / 3 dni
P4 – Nízky Kozmetické problémy Neaktuálne labely Regulárny release 1 deň / 2 týždne

Lineage, katalogizácia a dohľadateľnosť

  • Dátový lineage: vizualizácia tokov od zdrojov po KPI; identifikácia bodov zlyhania.
  • Dátový katalóg: popisy tabuliek/stĺpcov, vlastníci, citlivosť, kvalitatívne skóre.
  • Proveniencia: audit transformácií, verzovanie dbt/SQL modelov, mapovanie závislostí.

Master data a referenčné dáta

Kvalita master a referenčných dát je multiplicátorom kvality naprieč doménami. Plán obsahuje:

  • Politiky zlatého záznamu (golden record): deduplikácia, párovanie, prevažovanie zdrojov.
  • Správa kódovníkov: schvaľovanie zmien, verzovanie a distribúcia do systémov.
  • Kontroly integrity: FK na kódovníky, časová platnosť (SCD), mapovanie na externé štandardy.

Integrácia kvality do SDLC a CI/CD

  • Shift-left testy: spúšťanie validácií pri každom build-e; blok release pri porušení kontraktu.
  • Testy na úrovni modelu: schéma, unikátnosť, not-null, referencie, vlastné biznis pravidlá.
  • Testovacie dáta: syntetické sety s hraničnými prípadmi, ochrana súkromia (maskovanie).
  • Canary a rollback: postupné nasadenie transformácií s porovnaním metrík pred/po.

Výnimky, tolerancie a sezónnosť

Niektoré odchýlky sú očakávané (sezónne špičky, legislatívne zmeny). Plán určuje:

  • Mechanizmus výnimiek: časovo obmedzené, schválené ownerom, s kompenzačným opatrením.
  • Dynamické prahy: percentilové prahy podľa histórie; guardrails pre extrémy.
  • Kontextualizácia alertov: spájanie viacerých signálov (objem + úplnosť + včasnosť).

Meranie prínosu a KPI kvality

  • DQI (Data Quality Index): agregované skóre naprieč metrikami s váhami podľa rizika.
  • MTTA/MTTR: rýchlosť reakcie a nápravy incidentov kvality.
  • Defect Leakage: percento chýb preniknutých do produkčných reportov.
  • Business Impact: počet odvrátených chýb s finančným dopadom, zníženie manuálnych zásahov.

Štandardná dokumentácia a artefakty

  • Register metrík kvality (tabuľka s definíciami, prahmi, vlastníkmi, periodicitou).
  • Mapa lineage a závislostí (vizuál + export do JSON/CSV pre audit).
  • Katalóg dát so schémami, citlivosťou a prístupmi.
  • Runbook incidentov (playbook pre P1–P4, kontakty, eskalácie, komunikačné šablóny).
  • Šablóny dátových kontraktov (API/event/Batch) vrátane verzovania.

Príklad validačného plánu pre dataset „Sales Orders”

Pravidlo Typ Popis Prahy Frekvencia Akcia pri porušení
order_id je unikátny Schéma/PK Žiadne duplikáty kľúča 100 % / 100 % pri každom loade blok pipeline, ticket P1
customer_id existuje v Customers FK integrita Platné vzťahy objednávka→zákazník 99,99 % / 99,9 % denne karanténa záznamov, P2
sum(order_amount) = sum(line_items.amount) Biznis rovnosť Kontrola bilancie hlavička/riadky 100 % / 99,95 % denne alarm, manuálny reconcile, P2
Včasnosť dát D-1 do 06:00 Timeliness Dataset publikovaný v SLA 99,5 % / 99 % denne alert on-call, P2

Ochrana údajov a kvalita

  • Maskovanie a pseudonymizácia: testovacie a analytické prostredia s minimom PII.
  • Validácie citlivosti: kontrola únikov PII do neautorizovaných tabuliek/reportov.
  • Prístupové politiky: least privilege, audit prístupov, segregácia rolí.

Implementačná roadmapa

  1. Týždne 1–2: inventarizácia kritických datasetov, menovanie ownerov/stewardov, glosár.
  2. Týždne 3–4: definícia top metrík a prahov, návrh kontraktov, pilotné validácie.
  3. Týždne 5–6: nasadenie monitoringu a alertingu, runbook incidentov, dashboardy.
  4. Týždne 7–8: rozšírenie na ďalšie domény, kalibrácia, integrácia do CI/CD.
  5. Q+1: audit plánu, revízia metrík, optimalizácia prahov a nákladov.

Riadenie nákladov na kvalitu

  • Prevencia vs. detekcia vs. korekcia: maximalizovať prevenciu (lacnejšia), meraním cost-of-quality.
  • Výber kritických metrík: zamerať sa na 10–15 s najvyšším biznis dopadom.
  • Automatizácia: generické pravidlá a šablóny namiesto ad-hoc skriptov.

Kvalita dát ako schopnosť organizácie

Plán kvality dát vytvára opakovateľný systém, v ktorom majú dáta jasných vlastníkov, metriky sú presne definované a validácie sú automatizované a auditeľné. Výsledkom je dôvera v analytiku, rýchlejšie rozhodovanie a nižšie riziko regulačných či finančných incidentov. Takto chápaná kvalita dát je nie jednorazový projekt, ale trvalá schopnosť organizácie.

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *