Cíle základní údržby OS
Základní údržba a správa operačního systému (OS) směřuje k zajištění dostupnosti, bezpečnosti, výkonu a predikovatelnosti prostředí, ve kterém běží aplikace a služby. Klíčovým principem je opakovatelnost a auditovatelnost – vše, co děláte ručně, by mělo být možné zdokumentovat, automatizovat a znovu spustit bez závislosti na konkrétní osobě.
Plán údržby: perioda, odpovědnosti a okna
- Definujte údržbová okna: pravidelné časy pro aktualizace, restart a testy obnovy.
- Matice odpovědností (RACI): kdo schvaluje, provádí, kontroluje a informuje.
- Standardní provozní postupy (SOP): krokové návody pro běžné úkony, rollback a eskalaci.
Aktualizace a správa balíčků
Aktualizace řeší bezpečnostní zranitelnosti, chyby i výkon. U Linux distribucí používejte správce balíčků (apt, dnf/yum, zypper, pacman), ve Windows Windows Update a případně winget nebo WSUS. Doporučení:
- Segmentace: dev → test → preprod → prod (kanárkové zavádění).
- Kategorizace patchů: bezpečnostní (urgentní) vs. funkcionalita (plánované).
- Závislosti: kontrola kolizí verzí a změn konfigurace.
- Automatizace: plánované úlohy s notifikací o výsledku a jasným logem.
Zálohování a obnova (BCP/DR)
- 3–2–1 strategie: 3 kopie, 2 různá média, 1 mimo pracoviště.
- Typy záloh: plná, přírůstková, rozdílová; rotace podle hodnoty dat.
- Obnovitelnost: pravidelné testy obnovy (file-level i bare-metal) s metrikou RTO/RPO.
- Šifrování a integrita: ochrana klíčů, kontrolní součty, podpisy.
Správa uživatelů, identit a přístupů
- Princip nejmenších oprávnění (PoLP): přidělujte jen nezbytné role a skupiny.
- Centralizace identity: LDAP/AD, SSO, MFA; lokální účty jen výjimečně a auditovaně.
- Privilegovaný přístup:
sudoprofily, Just-in-Time přístup, kontrola sdílených tajemství. - Životní cyklus účtů: nástup/změna/odchod, pravidelný re-certifikační proces.
Bezpečnostní hardening
- Minimální instalace: odstraňte nepotřebné balíčky, služby a porty.
- Konfigurace jádra a služeb: sysctl, firewall (iptables/nftables, Windows Firewall), vypnutí SMBv1/obsolete protokolů.
- Ochrana před malware: reputační seznamy, antivir/EDR, izolace služeb (sandbox, AppArmor/SELinux).
- Šifrování: disk (LUKS/BitLocker), data v přenosu (TLS), správná správa certifikátů.
- Politiky hesel a klíčů: rotační plány, KMS, audit klíčových materiálů.
Monitoring, metriky a alerting
- Sběr metrik: CPU, paměť, I/O, latence, teplota, využití disku, stav služeb.
- Log management: centralizace (SIEM/ELK), retence, korelace událostí.
- Prahové hodnoty a SLO: definujte limity a výstrahy s potlačením duplicit (deduplikace).
- Runbooky: pro každý alert existuje jasný postup řešení a kontaktní matice.
Výkon a kapacitní plánování
- Profilace zátěže: typické špičky, sezónnost, workload mix (CPU-bound, IO-bound, RAM-bound).
- Optimalizace: plánovač, prioritizace procesů, NUMA, hugepages pro specifické workloady.
- Cache a storage vrstvy: správná volba FS (ext4, XFS, ZFS, ReFS), TRIM, alignment, RAID úrovně.
- Kapacitní modely: „co když“ scénáře, headroom, práh pro škálování vertikální/horizontální.
Síťová konfigurace a údržba
- Inventář rozhraní a VLAN: standardizace pojmenování, MTU, QoS.
- Firewall a ACL: default-deny, explicitní povolenky, revize pravidel.
- DNS/DHCP: spolehlivá rezoluce, split-horizon, rezervace, krátké TTL u měnících se služeb.
- Bezpečné vzdálené přístupy: SSH s klíči, RDP přes VPN, bastion host, záznam relací.
Automatizace a konfigurace jako kód
- Konfigurační management: deklarativní nástroje (Ansible, Puppet, Chef) a idempotentní playbooky.
- Templating a proměnné: separace tajemství (Vault), reuse konfigurací mezi prostředími.
- CI/CD pro správu OS: pipeline pro testování playbooků, linting, canary rollout.
- Scheduler úloh: systemd timers/cron s logy a notifikacemi; vyhýbat se „tichým“ skriptům.
Správa služeb a procesů
- Supervisor: systemd/sc, recovery politika (Restart=on-failure), health-checky.
- Jednoúčelové jednotky: oddělte dlouho běžící služby od jednorázových úloh; čistěte prostředí po běhu.
- Ukládání stavů: vyhněte se zapisování do dočasných lokací bez kontroly (tmp, var-run), standardizujte adresáře.
Provoz v kontejnerech a virtualizaci
- Golden image: verze OS a baseline hardeningu jako šablona (VM/kontejner).
- Kontejnerová hygiena: minimální image, pinning verzí, rootless provoz, read-only FS, seccomp profily.
- Orchestrace: readiness/liveness, limity zdrojů, rolling update, tajemství z externích KMS.
Správa logů a audit
- Normalizace: jednotný formát a časové zóny (UTC), synchronizace času (NTP/Chrony).
- Retence a právní požadavky: diferencovaná doba uchování, ochrana proti manipulaci (WORM úložiště).
- Detekce anomálií: korelace, baseline chování, alerty na odchylky.
Správa konfigurace a verzování
- Repozitář konfigurací: Git s pull requesty, code review, tagy releasů.
- Change management: RFC tiket, rizikové hodnocení, plán návratu, komunikace stakeholderů.
- Drift detection: porovnání běžícího stavu s deklarativní konfigurací, automatická náprava.
Ochrana koncových bodů a EDR
- Inventarizace zařízení: CMDB s vazbou na vlastnictví a kritičnost.
- Politiky zařízení: šifrování, firewall, USB restrikce, aplikace whitelisting.
- EDR/XDR: detekce chování, izolace hostu, forenzní stopy.
Správa časování a synchronizace
- NTP/Chrony: redundantní zdroje času, monitoring offsetů.
- Časová zóna: standardizace na UTC na serverech; správná prezentace v aplikacích.
Správa úložišť a souborových systémů
- Kontrola zdraví disků: SMART, prediktivní výměny, monitoring latencí.
- FS consistency: pravidelné kontroly, snapshoty (LVM/ZFS), kvóty a deduplikace tam, kde dává smysl.
- Zálohy konfigurací storage: RAID/NAS/SAN řadiče, multipath, firmware verze.
Licencování a compliance
- Evidence licencí: OS a komerční komponenty, expirace podpory.
- Konfigurační benchmarky: interní standardy a rámce (CIS-like), pravidelné skeny shody.
- Záznam o změnách: audit trail pro externí audit a rekonstrukci incidentu.
Incident response a problem management
- Runbook incidentu: detekce, triáž, mitigace, komunikace, evidence.
- Post-mortem: bez viny, akční položky s termíny, měření regresí.
- Proactive problem management: vyhledávání kořenových příčin opakovaných potíží.
Dokumentace, inventář a znalostní báze
- CMDB: vztahy mezi aktivy, služby → servery → konfigurace → závislosti.
- Runbooks a knowledge base: stručné postupy s přílohami (příkazy, očekávané výstupy).
- Aktualizace dokumentace: povinný krok v každém RFC/PR; dokumentace je artefakt release.
Pravidelné kontroly (operational health checks)
- Stav služeb: běh jednotek, failed units, restart count.
- Disk a FS: volné místo, inode usage, fragmentace, stav snapshotů.
- Bezpečnost: neúspěšná přihlášení, změny sudoers, expirované certifikáty.
- Zálohy: poslední úspěšná záloha, velikost delta, rychlost obnovy.
Best practices pro heterogenní prostředí (Linux/Windows/BSD)
- Standardizace: společné politiky logování, patchování, pojmenování, tagging v cloudu.
- Nástroje na míru: PowerShell DSC/GPO pro Windows; systemd/Ansible pro Linux/BSD.
- Integrace do SIEM/CMDB: jednotné identifikátory hostů a služeb.
Checklist pro základní údržbu OS
- Aktuální patch level a plánované okno pro restart.
- Vynucené šifrování disku a správná rotace klíčů/certifikátů.
- Funkční zálohy a provedený test obnovy v posledních 90 dnech.
- Centralizované logy a aktivní alerty na klíčové metriky.
- Aktualizované SOP/runbooky, CMDB a dokumentace změn.
- Audity účtů, skupin a privilegovaných přístupů.
- Kontrola kapacity (disk, RAM, CPU) a plán škálování.
Závěr
Kvalitní základní údržba OS je disciplína kombinující procesy, automatizaci a průběžné měření. Standardizujte prostředí, spravujte konfiguraci jako kód, vyhodnocujte rizika a udržujte připravené scénáře pro obnovu a incidenty. Dlouhodobě tak snížíte MTTR, zvýšíte dostupnost a předejdete neplánovaným výpadkům i bezpečnostním incidentům.