Cíle diagnostiky a správy síťového provozu
Diagnostika a správa síťového provozu (Network Operations & Observability) zahrnuje systematické měření, analýzu a řízení toků dat napříč vrstvami OSI, s cílem zajistit dostupnost, výkon, bezpečnost a predikovatelnost. Klíčové je stanovit metriky kvality (SLI/SLO), vybudovat sběr telemetrie v reálném čase a uplatňovat řízení provozu (QoS, shaping, směrování) i procesy reakce na incidenty.
Referenční rámec: vrstvy OSI/TCP/IP a typické poruchy
- L1–L2 (fyzická/linková): chybovost na portech, duplex mismatch, STP smyčky, VLAN/Trunk chyby, RF rušení u Wi-Fi.
- L3 (síťová): chybné routovací tabulky, asymetrie cest, MTU/fragmentace, zahození v ACL.
- L4–L7 (transport/aplikace): vyčerpání portů, retransmise TCP, TLS chyby, DNS latence, problémy služeb.
Klíčové metriky a ukazatele (SLI/SLO)
| Kategorie | Metrika | Interpretace |
| Dostupnost | Uptime, Loss (%) | Ztráta paketů < 0,1–1 % pro interaktivní služby |
| Výkon | Latency, Jitter (ms) | Hlas/VC: RTT < 150 ms, jitter < 30 ms |
| Propustnost | Throughput (Mb/s) | 95. percentil při zátěži |
| Spolehlivost | TCP Retrans (%), Out-of-order | Retrans < 2–3 % u WAN |
| Bezpečnost | Flows/min, anomálie | Detekce DDoS, port scans, data exfil |
Sběr telemetrie: NetFlow/IPFIX, sFlow a streamovaná telemetrie
- NetFlow/IPFIX: vzorkovaný/nevzorkovaný tokový export (5-tuple, bajty, pakety, trvání, ToS/DSCP); vhodné pro kapacitní plánování a detekci anomálií.
- sFlow: paketové vzorkování na L2–L4 + čítače; velmi škálovatelné pro top-of-rack a DC fabric.
- Model-driven telemetry: gNMI/GPB/JSON, YANG modely; push stream vs. SNMP pull, nižší latence a overhead.
- SNMPv3: základní čítače (ifIn/OutErrors, Discards), teplota/napájení; nutná autorizace a šifrování.
Aktivní a pasivní měření
- Aktivní: ping, traceroute/mtr, TWAMP/OWAMP (one/two-way delay, jitter, loss), syntetické HTTP/DNS transakce.
- Pasivní: span/tap + pcap (tcpdump, Wireshark), NetFlow/IPFIX, eBPF sondy v hostech.
- RUM (Real User Monitoring): měření z prohlížeče/klienta – DNS/TCP/TLS/TTFB, uživatelská latence.
Diagnostické nástroje a postupy
- L2: show interfaces (CRC, FCS, alignment), show spanning-tree, LLDP/CDP sousedé, MAC table flapping.
- L3: show ip route, traceroute (asymetrie), MTU Path Discovery (ping -M do, DF bit), ECMP analýza.
- L4–L7: tcpdump/pcap (SYN, SYN/ACK, window size, SACK, RTT), analýza TLS handshaku, HTTP kódy a TTFB.
- Wi-Fi: spektrální analýza, beacon/probe overhead, využití kanálu, retries, MCS, roaming (802.11k/v/r).
Řešení problémů krok za krokem (runbook)
- Potvrzení symptomu: reprodukce, sběr časových značek, ověření rozsahu (host/zóna/site).
- Rychlá telemetrie: ping/jitter/loss, mtr; kontrola portových chyb, CPU, paměti, teplot.
- Izolace vrstvy: ARP/ND, DHCP/DNS, L2 smyčky, routování, ACL/NAT, TLS.
- Hypotéza & test: změna cesty, DSCP značkování, snížení MSS/MTU, dočasné vypnutí offloadů.
- Remediace: QoS politika, změna směrování, rate-limit/shaping, oprava kování/kabelu, firmware.
- Post-mortem: příčinný strom (5× proč), akční položky, aktualizace runbooku.
QoS: klasifikace, značení a plánování front
- Klasifikace: L2 CoS (802.1p), L3 DSCP (EF, AFxy, CSx), NBAR/L7; mapování na výstupní fronty.
- Fronty: CBWFQ, LLQ (prioritní fronta pro hlas/video), WRED/ECN pro signál přetížení.
- Shaping vs. Policing: shaping vyrovnává bursty (token bucket), policing zahazuje/remarkuje; používat shaping na okrajích WAN.
- Bufferbloat a AQM: FQ-CoDel/PIE zkracují latenci při plném zatížení.
Směrování a řízení cest
- IGP: OSPF/ISIS – kostra, cost/metric tuning, LFA/FRR pro rychlou rekonvergenci.
- BGP: policy-based routing, MED/LocalPref/AS-Path prepending; blackhole/RPZ pro mitigaci DDoS.
- SD-WAN: dynamický výběr cesty (SLA: loss/latency/jitter), FEC, packet duplication; segmentace provozu.
Adresace, MTU a fragmentace
- IPv4/IPv6: SLAAC/DHCPv6, ND bezpečnost (RA-Guard), dual-stack vs. NAT64/DNS64.
- MTU: Path MTU Discovery, tune MSS na hraně tunelů (IPsec/GRE/VXLAN) k eliminaci fragmentace.
DNS, DHCP, NTP a jejich vliv na výkon
- DNS: latency resolvování, cache hit rate, ECS (EDNS Client Subnet) v CDNs, DNSSEC režie.
- DHCP: vyčerpání poolů, špatné relaye (IP helper), konflikty adres.
- NTP/PTP: nekonzistentní čas komplikuje korelaci logů; PTP pro nízkou latenci v finančních/OT sítích.
Observabilita: logy, metriky, trasy a události
- Centralizace: syslog (structured), NetFlow/IPFIX, SNMP traps do SIEM/TSDB; korelace s aplikačními APM metrikami.
- Distribuované trasování: OpenTelemetry – propojení síťových a aplikačních tras (span/trace id).
- Dashboardy: 95./99. percentil latence, saturace linek, chybovost portů, mapy závislostí.
Automatizace a deklarativní správa
- Konfigurační modely: YANG/NETCONF/RESTCONF, gNMI; „source of truth“ (Git) a CI/CD pipelines.
- Templating: Jinja2, validace proti schématům; tranzitní testy (batfish) před nasazením.
- Compliance: drift detection, auto-remediation, Role-Based Access Control.
Bezpečnost provozu (NDR, IDS/IPS, Zero Trust)
- NDR/IDS: behaviorální analýza toků (DGA, beaconing), TLS fingerprinting (JA3/JA4), detekce laterálního pohybu.
- Segmentace: VRF/VLAN/SGT/ACL, mikrosegmentace (host-firewall, SDP).
- Šifrování: IPsec/DTLS/MACsec; vliv na MTU a telemetrii (omezená viditelnost L7).
- DDoS: RTBH, flowspec, scrubbing; rate-limit control plane (CoPP).
Wi-Fi a mobilní přístup jako součást správy provozu
- RRM: plán kanálů, šířky (2,4: 20 MHz; 5: 40/80 MHz dle hustoty; 6 GHz preferenčně 80 MHz), TX power balance.
- Klientská zkušenost: SNR distribuce, retry, roamingové časy, kategorie zařízení; band steering a min RSSI.
- Kvalita pro hlas/VC: SSID hygiene (min SSID), WMM/EDCA, DSCP mapping přes WLAN, PPS limity.
Kapacitní plánování a modelování
- Trendování: 95. percentil využití linek, bursty, denní/mesační sezónnost.
- What-if: simulace přesměrování, výpadků, migrací (např. Anycast změny, nový uplink).
- CDN/Peering: optimalizace cest k obsahovým uzlům, měření RTT k anycastovým IP.
Procesy provozu: NOC, incidenty a změnové řízení
- Incident management: severity, SLA, eskalační matice; komunikační šablony.
- Problem management: kořenová příčina (RCA), prevence opakování, znalostní báze.
- Change management: údržbová okna, „pre-change“ testy, plán rollbacku, canary nasazení.
Checklist pro rychlou diagnostiku
- Je problém lokální nebo plošný? (telemetrie, heatmapy, status uplinků)
- Portové chyby/duplex/rychlost/optika? (CRC, LOS, Tx/Rx power)
- ARP/ND/DHCP/DNS funkční? (léčky: stale ARP, vyčerpaný pool, pomalé DNS)
- MTU/MSS na cestě? (DF bit, tunely, PMTUD)
- Routování symetrické? (ECMP, PBR, NAT)
- QoS nedegraduje klíčové třídy? (dropy v priority queue, shaping hit)
- Bezpečnostní prvky neblokují? (IPS, GeoIP, FW policy)
Tabulka běžných symptomů a příčin
| Symptom | Pravděpodobná příčina | Ověření/Řešení |
| Vysoká latence na WAN | Queueing, bufferbloat | AQM (FQ-CoDel), shaping na CIR, QoS audit |
| Náhodné výpadky | Flapping linky, STP změny | Syslog/STP topo změny, výměna kabelu, kování |
| Padá VPN | MTU v tunelu, rekey, ztráty | MSS clamp, PMTUD, profil SA, stabilita RTT |
| Pomalé weby | DNS, TLS handshake, congested path | RUM syntetika, TCP SYN/ACK RTT, změna peeringu |
| Špatná Wi-Fi | CCI/ACI, nízké SNR, sticky clients | RRM audit, min RSSI, band steering, kanály |
Správa konfigurací a inventář
- Inventarizace: unikátní identifikátory zařízení, modulů a rozhraní; mapy topologie (L2/L3) a závislostí.
- Zálohy: verze konfigurací, golden image; automatické zálohy při změně (syslog trigger, API webhook).
Compliance, audit a forenzní připravenost
- Retence: pcap krátkodobě (minuty–hodiny), flow data (dny–měsíce), logy (měsíce–roky dle regulace).
- Časová synchronizace: jednotný čas pro korelaci událostí; verifikace NTP zdrojů.
- Privátní data: minimalizace PII ve flow/logu; řízení přístupu k telemetrii.
Best practices pro dlouhodobou stabilitu
- Definujte SLO pro klíčové služby a měřte je z pohledu uživatele (syntetika + RUM).
- Standardizujte QoS politiky napříč hranami i core; auditujte dropy ve frontách.
- Automatizujte konfiguraci (declarative IaC), validujte změny offline a používejte canary rollout.
- Udržujte „source of truth“ a topologické grafy; vizualizujte závislosti (aplikace ↔ síť).
- Pravidelně testujte obnovu (backup/restore), plán DR a simulujte výpadky (game days).
Závěr
Profesionální diagnostika a správa síťového provozu kombinuje kvalitní telemetrii, promyšlené QoS, robustní směrování, automatizaci a jasné provozní procesy. Díky měřitelným SLI/SLO, konzistentním konfiguracím a průběžné analýze toků lze předcházet incidentům, rychle řešit problémy a dlouhodobě optimalizovat náklady i uživatelskou zkušenost.