Prečo potrebujeme plán kvality dát
Plán kvality dát je riadiaci dokument, ktorý stanovuje vlastníctvo dát, presnú definíciu metrík kvality a systematiku validácií v dátovom pipeline. Jeho cieľom je zabezpečiť, aby dáta boli spoľahlivé, auditovateľné a použiteľné pre analytiku, reporting, AI/ML a prevádzkové procesy. Dokument tvorí základ pre dátovú správu (data governance), kontrakty medzi producentmi a konzumentmi dát, aj pre SLA/SLO metriky, podľa ktorých sa riadi prevádzka.
Rozsah a princípy plánu
- Rozsah: zdrojové systémy, integračné vrstvy (ETL/ELT), dátové sklady/jazierka, semantická vrstva, reporty a API.
- Princípy: „quality by design“, automatizácia, merateľnosť, transparentnosť, minimalizmus v metrikách (menej, ale dôležité), „shift-left“ validácie pri vstupe.
- Riadenie rizika: sústredenie na kritické dátové domény (financie, zákazníci, súlad s reguláciou).
Model vlastníctva: roly a zodpovednosti
Jasné vlastníctvo eliminuje „bezprízorné dáta“ a urýchľuje riešenie incidentov. Odporúčaný model:
- Data Owner (Biznis vlastník): schvaľuje definície, prahové hodnoty a akceptačné kritériá; rozhoduje o výnimkách.
- Data Steward: kurátor kvality; spravuje katalóg, glosár a metriky; koordinuje nápravy.
- Data Custodian (IT/Platforma): zabezpečuje infraštruktúru, automatizované testy a monitorovanie.
- Data Producer: tím zdrojovej aplikácie; garantuje kvalitu na vstupe a dodržiavanie dátových kontraktov.
- Data Consumer: BI/AI/prevádzka; hlási odchýlky, participuje na UAT a definícii biznis pravidiel.
RACI matica pre kvalitu dát
| Aktivita | Owner | Steward | Custodian | Producer | Consumer |
|---|---|---|---|---|---|
| Definícia metrík | A | R | C | C | I |
| Nastavenie validácií | C | R | A | R | I |
| Monitorovanie a alerty | I | R | A | C | I |
| Incident management | A | R | R | C | C |
| Schvaľovanie výnimiek | A | R | C | C | I |
Glosár a dátové kontrakty
Bez jednotného jazyka nie je stabilná kvalita. Plán vyžaduje:
- Biznis glosár: definície entít (zákazník, objednávka), agregácií (výnos), periodicít a časovej platnosti.
- Dátové kontrakty: schémy, typy, povinné polia, kardinality, SLAs na latenciu a aktualizáciu, pravidlá verziovania (schema evolution).
Taxonómia metrík kvality
- Presnosť (Accuracy): miera súladu s realitou alebo referenčným zdrojom.
- Úplnosť (Completeness): podiel vyplnených povinných polí a záznamov.
- Jedinečnosť (Uniqueness): absencia duplicitných entít a kľúčov.
- Platnosť (Validity): súlad s doménami hodnôt, regexmi, typmi, referenčnými tabuľkami.
- Konzistentnosť (Consistency): súlad naprieč systémami/vrstvami (napr. sumy v DWH vs. ERP).
- Včasnosť (Timeliness): oneskorenie voči dohodnutej latencii (SLA/SLO).
- Integrita (Integrity): referenčná a transakčná integrita (FK, bilancie, rovnice).
- Traceability: sledovateľnosť pôvodu (lineage), audit trail transformácií.
Šablóna definície metrík (príklad)
| Názov metriky | Definícia | Vzorec | Zdroj | Prahy (Warn/Error) | Periodicita | Vlastník |
|---|---|---|---|---|---|---|
| Úplnosť e-mailu zákazníka | Podiel riadkov s ne-NULL a ne-prázdnym e-mailom | (počet_validných / počet_všetkých) × 100 % | CRM.customers.email | 95 % / 90 % | denne | Data Steward – Doména Zákazník |
| Platnosť formátu e-mailu | Súlad s regex vzorom RFC-like | počet_regex_ok / počet_všetkých | CRM.customers.email | 98 % / 95 % | denne | Data Steward – Doména Zákazník |
| Jedinečnosť zákazníckeho ID | Podiel unikátnych customer_id | count_distinct(customer_id) / count(*) | CRM.customers.customer_id | 100 % / 99,9 % | nepretržite | Owner – Komerčná prevádzka |
Validácie: typy testov a kde ich spúšťať
- Schémové testy: typy, povinnosť polí, dĺžky, enumy, primárne kľúče.
- Referenčné testy: cudzie kľúče, mapovanie na referenčné tabuľky (krajiny, meny).
- Biznis pravidlá: doménové logiky (napr. dátum faktúry ≤ dátum dodania), rovnice, bilancie.
- Distribučné/anomálne testy: odchýlky v histogramoch, priemer/medián/σ, sezónnosť.
- Lineage konzistencia: kontrola zachovania počtov a súm po transformáciách (source→staging→DWH→mart).
- Contract testy na API/eventy: validácia payloadov, verzií a spätnej kompatibility.
Životný cyklus dátových validácií
- Návrh: identifikácia kritických polí a rizík; návrh pravidiel a prahov.
- Implementácia: infra testy v pipeline (ETL/ELT), build-time testy (CI), runtime monitorovanie.
- Kalibrácia prahov: A/B porovnanie, analýza historických rozdelení, sezónne výnimky.
- Prevádzka: alerty, dashboardy, incidenty, ticketing, nápravné opatrenia (CAPA).
- Revízia: kvartálne prehodnocovanie relevancie pravidiel a metrík.
Architektúra monitorovania kvality
- Observabilita dát: metriky objemu, čerstvosti, schémových zmien, výpadkov.
- Alerting: multi-úrovňové (INFO/WARN/ERROR), on-call rotácie, tichý režim pre plánované výpadky.
- Dashboardy: domény × metriky × SLA/SLO; drill-down na tabuľky/stĺpce.
- Audit trail: logy validácií, verzovanie pravidiel, podpisy release-ov, dôkaz o kontrole.
SLA, SLO a akceptačné kritériá
- SLA (Service Level Agreement): záväzná dostupnosť a latencia (napr. „denné reporty do 08:00 s 99,5 % dostupnosťou“).
- SLO (Service Level Objective): interné ciele kvality (napr. „≥ 97 % úplnosť kľúčových polí“).
- Akceptačné kritériá: explicitné prahy, nad ktorými je dataset nasaditeľný do produkcie alebo report publikovateľný.
Riadenie incidentov kvality dát
| Úroveň | Popis | Príklady | Reakcia | MTTA/MTTR cieľ |
|---|---|---|---|---|
| P1 – Kritický | Vplyv na finančné/legálne výstupy | Chybné výnosy v uzávierke | Incident war-room, rollback, blok publikácie | 15 min / 4 h |
| P2 – Vysoký | Vplyv na kľúčové KPI | Nekonzistentné predaje v DWH vs. ERP | Hotfix, korektívne skripty | 1 h / 1 deň |
| P3 – Stredný | Lokálne anomálie | Chýbajúce hodnoty v menšej subdoméne | Backlog, plán nápravy | 4 h / 3 dni |
| P4 – Nízky | Kozmetické problémy | Neaktuálne labely | Regulárny release | 1 deň / 2 týždne |
Lineage, katalogizácia a dohľadateľnosť
- Dátový lineage: vizualizácia tokov od zdrojov po KPI; identifikácia bodov zlyhania.
- Dátový katalóg: popisy tabuliek/stĺpcov, vlastníci, citlivosť, kvalitatívne skóre.
- Proveniencia: audit transformácií, verzovanie dbt/SQL modelov, mapovanie závislostí.
Master data a referenčné dáta
Kvalita master a referenčných dát je multiplicátorom kvality naprieč doménami. Plán obsahuje:
- Politiky zlatého záznamu (golden record): deduplikácia, párovanie, prevažovanie zdrojov.
- Správa kódovníkov: schvaľovanie zmien, verzovanie a distribúcia do systémov.
- Kontroly integrity: FK na kódovníky, časová platnosť (SCD), mapovanie na externé štandardy.
Integrácia kvality do SDLC a CI/CD
- Shift-left testy: spúšťanie validácií pri každom build-e; blok release pri porušení kontraktu.
- Testy na úrovni modelu: schéma, unikátnosť, not-null, referencie, vlastné biznis pravidlá.
- Testovacie dáta: syntetické sety s hraničnými prípadmi, ochrana súkromia (maskovanie).
- Canary a rollback: postupné nasadenie transformácií s porovnaním metrík pred/po.
Výnimky, tolerancie a sezónnosť
Niektoré odchýlky sú očakávané (sezónne špičky, legislatívne zmeny). Plán určuje:
- Mechanizmus výnimiek: časovo obmedzené, schválené ownerom, s kompenzačným opatrením.
- Dynamické prahy: percentilové prahy podľa histórie; guardrails pre extrémy.
- Kontextualizácia alertov: spájanie viacerých signálov (objem + úplnosť + včasnosť).
Meranie prínosu a KPI kvality
- DQI (Data Quality Index): agregované skóre naprieč metrikami s váhami podľa rizika.
- MTTA/MTTR: rýchlosť reakcie a nápravy incidentov kvality.
- Defect Leakage: percento chýb preniknutých do produkčných reportov.
- Business Impact: počet odvrátených chýb s finančným dopadom, zníženie manuálnych zásahov.
Štandardná dokumentácia a artefakty
- Register metrík kvality (tabuľka s definíciami, prahmi, vlastníkmi, periodicitou).
- Mapa lineage a závislostí (vizuál + export do JSON/CSV pre audit).
- Katalóg dát so schémami, citlivosťou a prístupmi.
- Runbook incidentov (playbook pre P1–P4, kontakty, eskalácie, komunikačné šablóny).
- Šablóny dátových kontraktov (API/event/Batch) vrátane verzovania.
Príklad validačného plánu pre dataset „Sales Orders”
| Pravidlo | Typ | Popis | Prahy | Frekvencia | Akcia pri porušení |
|---|---|---|---|---|---|
| order_id je unikátny | Schéma/PK | Žiadne duplikáty kľúča | 100 % / 100 % | pri každom loade | blok pipeline, ticket P1 |
| customer_id existuje v Customers | FK integrita | Platné vzťahy objednávka→zákazník | 99,99 % / 99,9 % | denne | karanténa záznamov, P2 |
| sum(order_amount) = sum(line_items.amount) | Biznis rovnosť | Kontrola bilancie hlavička/riadky | 100 % / 99,95 % | denne | alarm, manuálny reconcile, P2 |
| Včasnosť dát D-1 do 06:00 | Timeliness | Dataset publikovaný v SLA | 99,5 % / 99 % | denne | alert on-call, P2 |
Ochrana údajov a kvalita
- Maskovanie a pseudonymizácia: testovacie a analytické prostredia s minimom PII.
- Validácie citlivosti: kontrola únikov PII do neautorizovaných tabuliek/reportov.
- Prístupové politiky: least privilege, audit prístupov, segregácia rolí.
Implementačná roadmapa
- Týždne 1–2: inventarizácia kritických datasetov, menovanie ownerov/stewardov, glosár.
- Týždne 3–4: definícia top metrík a prahov, návrh kontraktov, pilotné validácie.
- Týždne 5–6: nasadenie monitoringu a alertingu, runbook incidentov, dashboardy.
- Týždne 7–8: rozšírenie na ďalšie domény, kalibrácia, integrácia do CI/CD.
- Q+1: audit plánu, revízia metrík, optimalizácia prahov a nákladov.
Riadenie nákladov na kvalitu
- Prevencia vs. detekcia vs. korekcia: maximalizovať prevenciu (lacnejšia), meraním cost-of-quality.
- Výber kritických metrík: zamerať sa na 10–15 s najvyšším biznis dopadom.
- Automatizácia: generické pravidlá a šablóny namiesto ad-hoc skriptov.
Kvalita dát ako schopnosť organizácie
Plán kvality dát vytvára opakovateľný systém, v ktorom majú dáta jasných vlastníkov, metriky sú presne definované a validácie sú automatizované a auditeľné. Výsledkom je dôvera v analytiku, rýchlejšie rozhodovanie a nižšie riziko regulačných či finančných incidentov. Takto chápaná kvalita dát je nie jednorazový projekt, ale trvalá schopnosť organizácie.