Politika kvality dat

Politika kvality dat

Účel politiky kvality dat

Politika kvality dat (Data Quality Policy) stanovuje závazná pravidla, odpovědnosti a metriky pro řízené zajištění kvality dat napříč organizací. Hlavní cíle: spolehlivost rozhodování, regulatorní shoda, interoperabilita mezi systémy a snížení nákladů na špatná data (rework, incidenty, reputační riziko). Politika je závazná pro všechny systémy, integrační toky a datové produkty (reporty, API, datové marty, datové sady publikované třetím stranám).

Rozsah a principy

  • Enterprise-wide: vztahuje se na master data, referenční data, transakční data, analytické datasety a nestrukturovaná data s metadaty.
  • Risk-based přístup: úroveň kontrol odpovídá riziku byznysového dopadu a regulatorní citlivosti.
  • Accountability u zdroje: kvalita se zajišťuje co nejblíže místu vzniku dat („shift-left“).
  • Standardizace a opakovaná použitelnost: jednotné definice, datové standardy a knihovny validačních pravidel.

Role a odpovědnosti (RACI)

Role Odpovědnost Příklady
Data Owner R – odpovědnost za kvalitu a přístupová práva v doméně Schvaluje pravidla, cíle kvality, rozpočet
Data Steward A – správa metadat, definic a pravidel Business glossary, pravidla DQ, workflow oprav
Data Custodian C – technická správa datových platforem Zajišťuje monitoring, katalog, lineage
Product/Report Owner C/I – garantuje datový produkt Definuje SLO/SLA datové sady, akceptační testy
Information Security & Compliance C – kontrola souladu GDPR, audit přístupů, retence
Data Governance Council A – schvaluje standardy a politiku Řídí změny standardů, eskaluje spory

Dimenze kvality dat a metriky

  • Správnost (Accuracy): odchylka od pravdy (externí/primární zdroj); metrika: % záznamů bez chyby dle referenčního vzorku.
  • Úplnost (Completeness): povinné atributy vyplněny; metrika: % ne-null v povinných polích.
  • Včasnost (Timeliness): latence od události k dostupnosti dat; metrika: P95 latence, on-time delivery rate.
  • Konzistence (Consistency): shoda napříč systémy/časem; metrika: počet konfliktů na sdílených klíčích.
  • Jednoznačnost (Uniqueness): absence duplicit; metrika: poměr unikátních business klíčů.
  • Validita (Validity): shoda s doménovými a formálními pravidly; metrika: % záznamů procházejících pravidly.
  • Trasovatelnost (Traceability): dostupnost lineage a audit trail; metrika: % datových toků s plnou lineage na sloupcové úrovni.

Datové standardy – obecné zásady

  • Definice metadat: každé pole má název, popis, datový typ, doménu hodnot, pravidla kvality, citlivost, vlastníka.
  • Jmenné konvence: konzistentní pojmenování tabulek, sloupců, API a souborů; zakázány nejednoznačné zkratky.
  • Datové typy: preferovat škálovatelné nativní typy (např. DECIMAL(38, 6) pro finance, DATE/TIMESTAMP WITH TZ pro čas).
  • Kódové sady: pro země ISO-3166, měny ISO-4217, jazyky ISO-639, časová pásma IANA; interní číselníky verzovat.
  • Čas a lokalizace: ukládat v UTC s explicitním časovým pásmem; datumy ve formátu ISO-8601.

Jmenné konvence (příklad)

# tabulky: <doména>__<objekt>__<granularita> sales__order__line # sloupce: snake_case, bez diakritiky customer_id, order_ts_utc, gross_amount, currency_code # soubory: kebab-case + datum customer-delta-2025-10-25.parquet # API: /v1/customers/{customer_id}

Standardy kvality: pravidla a prahy

Pravidlo Popis Prahová hodnota Akce
COMPL_001 Povinné atributy zákazníka vyplněny ≥ 99,5 % Varování > 0,3 %, incident > 0,5 %
VALID_010 Formát e-mailu dle RFC regexu ≥ 99,0 % Odmítnout ingest mimo whitelist
CONS_020 Shoda currency_code s ISO-4217 100 % Automatická oprava/odmítnutí
UNIQ_005 Jedinečnost business klíče (iban) 100 % Dedup pipeline, blokace duplicit
TIMEL_015 On-time delivery P95 ≤ 15 min Eskalační matice 1/4/8 h

Datové smlouvy (Data Contracts)

Datová smlouva definuje schéma, sémantiku, kvalitu a SLO pro datový produkt či API. Zahrnuje kontaktní osoby, verze, změnovou politiku a chování při porušení (např. „fail-fast“ vs. „graceful degradation“). Smlouvy jsou verzované (SemVer) a zveřejněné v katalogu.

Verzování schémat a řízení změn

  • Verzování: semantic versioning (MAJOR.MINOR.PATCH). Breaking změny vyžadují nové endpointy/tabulky a migrační plán.
  • Schema Registry: centralizovaná registrace JSON/Avro/Protobuf schémat; validace při ingestu a změnách.
  • Change Control Board: schvaluje standardy a major změny schémat; dopadová analýza přes lineage.

Metadata, katalog a lineage

  • Business glossary: jednotné definice metrik a pojmů; vazba na datové prvky a pravidla kvality.
  • Technická metadata: zdroj, vlastník, PII klasifikace, retence, SLO, poslední obnovy, spotřeba nákladů.
  • Lineage: mapování „zdroj → transformace → cílové pole“ na úroveň sloupců; automatizované z ETL/ELT nástrojů.

Řízení referenčních a kmenových dat (MDM/RDM)

  • MDM model: zlatý záznam (golden record), strategie „match-merge“, survivorship pravidla, governance workflow.
  • RDM: centrální správa číselníků, verzování, publikace do integračních rozhraní; zákaz volných textů tam, kde patří kód.

Kontroly kvality v životním cyklu dat

  1. Vstupní kontroly (ingest): schema enforcement, typy, povinná pole, domény hodnot, dedup na klíčích.
  2. Procesní kontroly (transformace): referenční integrita, SCD konzistence, business pravidla.
  3. Výstupní kontroly (publikace): validace proti datové smlouvě, regression testy metrik, KPI kvality.

Testování kvality a observabilita dat

  • Data unit tests: testy pravidel na úrovni tabulek/sloupců (row count, null-rate, domain-check).
  • Contract tests: kompatibilita schémat a SLO s odběrateli.
  • Monitoring: detekce drifů distribucí, výkyvů objemů, změn v patternu (sezónnost, outliery).
  • Alerting: prahové hodnoty, runbooky a eskalace; evidence incidentů (ticketing) s MTTR/MTBF metrikami.

Řízení incidentů, náprava a prevence

  • Incident workflow: nahlášení, triage, dočasná mitigace (např. backfill), root-cause analýza, post-mortem.
  • Data quality backlog: priorizované položky podle dopadu; kvartální plán nápravných opatření.
  • Prevence: „shift-left“ validace v UI/API, povinné referenční číselníky, linting transformací, code review pravidel.

Bezpečnost a soulad

  • Klasifikace dat: veřejná, interní, důvěrná, vysoce důvěrná; odpovídající šifrování a řízení přístupu.
  • PII/PHI: minimalizace, pseudonymizace/tokenizace, dynamické maskování; audit přístupů a retence.
  • Retenční politika: pravidla uchování a výmazu v souladu s právním titulem; dokumentovaná výjimka = povolení.

Metriky, KPI a scorecard kvality

Kategorie KPI Cíl Způsob reportingu
Kvalita % pravidel splněno (agregát) ≥ 98 % Měsíční scorecard + alerty < 95 %
Čerstvost On-time delivery rate ≥ 99 % Reálný čas v DCIM/monitoringu
Incidenty MTTR (Median) ≤ 8 h Incident management nástroj
Adopce % datasetů s plnou lineage ≥ 90 % Katalog/metadatový systém

Šablona pravidla kvality (policy pattern)

Id: VALID_030 Název: Validace IBAN Popis: Pole iban musí odpovídat normě ISO 13616 vč. kontrolní číslice Rozsah: Tabulka customer_account, sloupec iban Metrika: % validních záznamů Prahová hodnota: 100 % Akce při porušení: odmítnout záznam, vytvořit incident (sev. Medium) Vlastník: Data Owner – Finance Správce: Data Steward – Finance Implementace: knihovna dq_rules.v1.iban_check()

Standardy pro API a výměnu dat

  • Formáty: JSON/Avro/Parquet preferované; CSV pouze s explicitní specifikací delimiteru, quote a kódování UTF-8.
  • Kontrakty: OpenAPI/AsyncAPI verzované, publikované v katalogu; validace payloadů v gateway.
  • Chybová hlášení: standardizovaná struktura (code, message, details, correlation_id); neduplikovat PII.

Školení a kultura dat

  • Onboarding: povinné školení Data Governance, práce s katalogem, hlášení incidentů.
  • Komunita praktiků: stewardi a analytici sdílejí knihovny pravidel a vzory.
  • Motivace: KPI kvality dat zahrnuté v cílech doménových týmů.

Implementační roadmapa

  1. Inventura datových produktů a mapování kritických toků.
  2. Definice standardů (jmenné konvence, číselníky, typy) a minimálního setu DQ pravidel pro kritické datové prvky.
  3. Nasazení katalogu, glossary, lineage a observability.
  4. Datové smlouvy pro priority produkty a nastavení SLO/SLA.
  5. Monitoring a scorecard, incident workflow a kvartální zlepšovací plán.

Checklist pro revizi politiky kvality dat

  • Jsou definovány role (Owner/Steward) pro každou doménu a dataset?
  • Existuje business glossary a vazby na technická metadata?
  • Jsou metriky kvality a prahy stanoveny a měřeny?
  • Má každý datový produkt datovou smlouvu a verzované schéma?
  • Funguje incident management s MTTR cíli a post-mortem praktikou?
  • Je zajištěna compliance (klasifikace PII, retence, audit přístupů)?
  • Je zavedeno verzování číselníků a standardů s řízením změn?
  • Jsou pravidla kvality implementována na vstupu i výstupu (shift-left & gatekeeping)?

Závěr

Politika kvality dat a datové standardy tvoří pevný rámec, který umožňuje měřitelně řídit kvalitu, snižovat rizika a zrychlovat práci s daty. Úspěch závisí na jasných rolích, standardizovaných pravidlech, automatizovaném monitoringu a kultuře odpovědnosti. Organizace, které disciplinovaně uplatňují datové standardy a kvalitativní metriky, dosahují vyšší důvěry v data, nižších nákladů a rychlejších inovací.

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *