Účel politiky kvality dat
Politika kvality dat (Data Quality Policy) stanovuje závazná pravidla, odpovědnosti a metriky pro řízené zajištění kvality dat napříč organizací. Hlavní cíle: spolehlivost rozhodování, regulatorní shoda, interoperabilita mezi systémy a snížení nákladů na špatná data (rework, incidenty, reputační riziko). Politika je závazná pro všechny systémy, integrační toky a datové produkty (reporty, API, datové marty, datové sady publikované třetím stranám).
Rozsah a principy
- Enterprise-wide: vztahuje se na master data, referenční data, transakční data, analytické datasety a nestrukturovaná data s metadaty.
- Risk-based přístup: úroveň kontrol odpovídá riziku byznysového dopadu a regulatorní citlivosti.
- Accountability u zdroje: kvalita se zajišťuje co nejblíže místu vzniku dat („shift-left“).
- Standardizace a opakovaná použitelnost: jednotné definice, datové standardy a knihovny validačních pravidel.
Role a odpovědnosti (RACI)
| Role | Odpovědnost | Příklady |
|---|---|---|
| Data Owner | R – odpovědnost za kvalitu a přístupová práva v doméně | Schvaluje pravidla, cíle kvality, rozpočet |
| Data Steward | A – správa metadat, definic a pravidel | Business glossary, pravidla DQ, workflow oprav |
| Data Custodian | C – technická správa datových platforem | Zajišťuje monitoring, katalog, lineage |
| Product/Report Owner | C/I – garantuje datový produkt | Definuje SLO/SLA datové sady, akceptační testy |
| Information Security & Compliance | C – kontrola souladu | GDPR, audit přístupů, retence |
| Data Governance Council | A – schvaluje standardy a politiku | Řídí změny standardů, eskaluje spory |
Dimenze kvality dat a metriky
- Správnost (Accuracy): odchylka od pravdy (externí/primární zdroj); metrika: % záznamů bez chyby dle referenčního vzorku.
- Úplnost (Completeness): povinné atributy vyplněny; metrika: % ne-null v povinných polích.
- Včasnost (Timeliness): latence od události k dostupnosti dat; metrika: P95 latence, on-time delivery rate.
- Konzistence (Consistency): shoda napříč systémy/časem; metrika: počet konfliktů na sdílených klíčích.
- Jednoznačnost (Uniqueness): absence duplicit; metrika: poměr unikátních business klíčů.
- Validita (Validity): shoda s doménovými a formálními pravidly; metrika: % záznamů procházejících pravidly.
- Trasovatelnost (Traceability): dostupnost lineage a audit trail; metrika: % datových toků s plnou lineage na sloupcové úrovni.
Datové standardy – obecné zásady
- Definice metadat: každé pole má název, popis, datový typ, doménu hodnot, pravidla kvality, citlivost, vlastníka.
- Jmenné konvence: konzistentní pojmenování tabulek, sloupců, API a souborů; zakázány nejednoznačné zkratky.
- Datové typy: preferovat škálovatelné nativní typy (např.
DECIMAL(38, 6)pro finance,DATE/TIMESTAMP WITH TZpro čas). - Kódové sady: pro země ISO-3166, měny ISO-4217, jazyky ISO-639, časová pásma IANA; interní číselníky verzovat.
- Čas a lokalizace: ukládat v UTC s explicitním časovým pásmem; datumy ve formátu ISO-8601.
Jmenné konvence (příklad)
# tabulky: <doména>__<objekt>__<granularita> sales__order__line # sloupce: snake_case, bez diakritiky customer_id, order_ts_utc, gross_amount, currency_code # soubory: kebab-case + datum customer-delta-2025-10-25.parquet # API: /v1/customers/{customer_id}
Standardy kvality: pravidla a prahy
| Pravidlo | Popis | Prahová hodnota | Akce |
|---|---|---|---|
| COMPL_001 | Povinné atributy zákazníka vyplněny | ≥ 99,5 % | Varování > 0,3 %, incident > 0,5 % |
| VALID_010 | Formát e-mailu dle RFC regexu | ≥ 99,0 % | Odmítnout ingest mimo whitelist |
| CONS_020 | Shoda currency_code s ISO-4217 | 100 % | Automatická oprava/odmítnutí |
| UNIQ_005 | Jedinečnost business klíče (iban) | 100 % | Dedup pipeline, blokace duplicit |
| TIMEL_015 | On-time delivery P95 | ≤ 15 min | Eskalační matice 1/4/8 h |
Datové smlouvy (Data Contracts)
Datová smlouva definuje schéma, sémantiku, kvalitu a SLO pro datový produkt či API. Zahrnuje kontaktní osoby, verze, změnovou politiku a chování při porušení (např. „fail-fast“ vs. „graceful degradation“). Smlouvy jsou verzované (SemVer) a zveřejněné v katalogu.
Verzování schémat a řízení změn
- Verzování: semantic versioning (MAJOR.MINOR.PATCH). Breaking změny vyžadují nové endpointy/tabulky a migrační plán.
- Schema Registry: centralizovaná registrace JSON/Avro/Protobuf schémat; validace při ingestu a změnách.
- Change Control Board: schvaluje standardy a major změny schémat; dopadová analýza přes lineage.
Metadata, katalog a lineage
- Business glossary: jednotné definice metrik a pojmů; vazba na datové prvky a pravidla kvality.
- Technická metadata: zdroj, vlastník, PII klasifikace, retence, SLO, poslední obnovy, spotřeba nákladů.
- Lineage: mapování „zdroj → transformace → cílové pole“ na úroveň sloupců; automatizované z ETL/ELT nástrojů.
Řízení referenčních a kmenových dat (MDM/RDM)
- MDM model: zlatý záznam (golden record), strategie „match-merge“, survivorship pravidla, governance workflow.
- RDM: centrální správa číselníků, verzování, publikace do integračních rozhraní; zákaz volných textů tam, kde patří kód.
Kontroly kvality v životním cyklu dat
- Vstupní kontroly (ingest): schema enforcement, typy, povinná pole, domény hodnot, dedup na klíčích.
- Procesní kontroly (transformace): referenční integrita, SCD konzistence, business pravidla.
- Výstupní kontroly (publikace): validace proti datové smlouvě, regression testy metrik, KPI kvality.
Testování kvality a observabilita dat
- Data unit tests: testy pravidel na úrovni tabulek/sloupců (row count, null-rate, domain-check).
- Contract tests: kompatibilita schémat a SLO s odběrateli.
- Monitoring: detekce drifů distribucí, výkyvů objemů, změn v patternu (sezónnost, outliery).
- Alerting: prahové hodnoty, runbooky a eskalace; evidence incidentů (ticketing) s MTTR/MTBF metrikami.
Řízení incidentů, náprava a prevence
- Incident workflow: nahlášení, triage, dočasná mitigace (např. backfill), root-cause analýza, post-mortem.
- Data quality backlog: priorizované položky podle dopadu; kvartální plán nápravných opatření.
- Prevence: „shift-left“ validace v UI/API, povinné referenční číselníky, linting transformací, code review pravidel.
Bezpečnost a soulad
- Klasifikace dat: veřejná, interní, důvěrná, vysoce důvěrná; odpovídající šifrování a řízení přístupu.
- PII/PHI: minimalizace, pseudonymizace/tokenizace, dynamické maskování; audit přístupů a retence.
- Retenční politika: pravidla uchování a výmazu v souladu s právním titulem; dokumentovaná výjimka = povolení.
Metriky, KPI a scorecard kvality
| Kategorie | KPI | Cíl | Způsob reportingu |
|---|---|---|---|
| Kvalita | % pravidel splněno (agregát) | ≥ 98 % | Měsíční scorecard + alerty < 95 % |
| Čerstvost | On-time delivery rate | ≥ 99 % | Reálný čas v DCIM/monitoringu |
| Incidenty | MTTR (Median) | ≤ 8 h | Incident management nástroj |
| Adopce | % datasetů s plnou lineage | ≥ 90 % | Katalog/metadatový systém |
Šablona pravidla kvality (policy pattern)
Id: VALID_030 Název: Validace IBAN Popis: Pole iban musí odpovídat normě ISO 13616 vč. kontrolní číslice Rozsah: Tabulka customer_account, sloupec iban Metrika: % validních záznamů Prahová hodnota: 100 % Akce při porušení: odmítnout záznam, vytvořit incident (sev. Medium) Vlastník: Data Owner – Finance Správce: Data Steward – Finance Implementace: knihovna dq_rules.v1.iban_check()
Standardy pro API a výměnu dat
- Formáty: JSON/Avro/Parquet preferované; CSV pouze s explicitní specifikací delimiteru, quote a kódování UTF-8.
- Kontrakty: OpenAPI/AsyncAPI verzované, publikované v katalogu; validace payloadů v gateway.
- Chybová hlášení: standardizovaná struktura (
code, message, details, correlation_id); neduplikovat PII.
Školení a kultura dat
- Onboarding: povinné školení Data Governance, práce s katalogem, hlášení incidentů.
- Komunita praktiků: stewardi a analytici sdílejí knihovny pravidel a vzory.
- Motivace: KPI kvality dat zahrnuté v cílech doménových týmů.
Implementační roadmapa
- Inventura datových produktů a mapování kritických toků.
- Definice standardů (jmenné konvence, číselníky, typy) a minimálního setu DQ pravidel pro kritické datové prvky.
- Nasazení katalogu, glossary, lineage a observability.
- Datové smlouvy pro priority produkty a nastavení SLO/SLA.
- Monitoring a scorecard, incident workflow a kvartální zlepšovací plán.
Checklist pro revizi politiky kvality dat
- Jsou definovány role (Owner/Steward) pro každou doménu a dataset?
- Existuje business glossary a vazby na technická metadata?
- Jsou metriky kvality a prahy stanoveny a měřeny?
- Má každý datový produkt datovou smlouvu a verzované schéma?
- Funguje incident management s MTTR cíli a post-mortem praktikou?
- Je zajištěna compliance (klasifikace PII, retence, audit přístupů)?
- Je zavedeno verzování číselníků a standardů s řízením změn?
- Jsou pravidla kvality implementována na vstupu i výstupu (shift-left & gatekeeping)?
Závěr
Politika kvality dat a datové standardy tvoří pevný rámec, který umožňuje měřitelně řídit kvalitu, snižovat rizika a zrychlovat práci s daty. Úspěch závisí na jasných rolích, standardizovaných pravidlech, automatizovaném monitoringu a kultuře odpovědnosti. Organizace, které disciplinovaně uplatňují datové standardy a kvalitativní metriky, dosahují vyšší důvěry v data, nižších nákladů a rychlejších inovací.