Správa síťového provozu

Správa síťového provozu

Cíle diagnostiky a správy síťového provozu

Diagnostika a správa síťového provozu (Network Operations & Observability) zahrnuje systematické měření, analýzu a řízení toků dat napříč vrstvami OSI, s cílem zajistit dostupnost, výkon, bezpečnost a predikovatelnost. Klíčové je stanovit metriky kvality (SLI/SLO), vybudovat sběr telemetrie v reálném čase a uplatňovat řízení provozu (QoS, shaping, směrování) i procesy reakce na incidenty.

Referenční rámec: vrstvy OSI/TCP/IP a typické poruchy

  • L1–L2 (fyzická/linková): chybovost na portech, duplex mismatch, STP smyčky, VLAN/Trunk chyby, RF rušení u Wi-Fi.
  • L3 (síťová): chybné routovací tabulky, asymetrie cest, MTU/fragmentace, zahození v ACL.
  • L4–L7 (transport/aplikace): vyčerpání portů, retransmise TCP, TLS chyby, DNS latence, problémy služeb.

Klíčové metriky a ukazatele (SLI/SLO)

Kategorie Metrika Interpretace
Dostupnost Uptime, Loss (%) Ztráta paketů < 0,1–1 % pro interaktivní služby
Výkon Latency, Jitter (ms) Hlas/VC: RTT < 150 ms, jitter < 30 ms
Propustnost Throughput (Mb/s) 95. percentil při zátěži
Spolehlivost TCP Retrans (%), Out-of-order Retrans < 2–3 % u WAN
Bezpečnost Flows/min, anomálie Detekce DDoS, port scans, data exfil

Sběr telemetrie: NetFlow/IPFIX, sFlow a streamovaná telemetrie

  • NetFlow/IPFIX: vzorkovaný/nevzorkovaný tokový export (5-tuple, bajty, pakety, trvání, ToS/DSCP); vhodné pro kapacitní plánování a detekci anomálií.
  • sFlow: paketové vzorkování na L2–L4 + čítače; velmi škálovatelné pro top-of-rack a DC fabric.
  • Model-driven telemetry: gNMI/GPB/JSON, YANG modely; push stream vs. SNMP pull, nižší latence a overhead.
  • SNMPv3: základní čítače (ifIn/OutErrors, Discards), teplota/napájení; nutná autorizace a šifrování.

Aktivní a pasivní měření

  • Aktivní: ping, traceroute/mtr, TWAMP/OWAMP (one/two-way delay, jitter, loss), syntetické HTTP/DNS transakce.
  • Pasivní: span/tap + pcap (tcpdump, Wireshark), NetFlow/IPFIX, eBPF sondy v hostech.
  • RUM (Real User Monitoring): měření z prohlížeče/klienta – DNS/TCP/TLS/TTFB, uživatelská latence.

Diagnostické nástroje a postupy

  • L2: show interfaces (CRC, FCS, alignment), show spanning-tree, LLDP/CDP sousedé, MAC table flapping.
  • L3: show ip route, traceroute (asymetrie), MTU Path Discovery (ping -M do, DF bit), ECMP analýza.
  • L4–L7: tcpdump/pcap (SYN, SYN/ACK, window size, SACK, RTT), analýza TLS handshaku, HTTP kódy a TTFB.
  • Wi-Fi: spektrální analýza, beacon/probe overhead, využití kanálu, retries, MCS, roaming (802.11k/v/r).

Řešení problémů krok za krokem (runbook)

  1. Potvrzení symptomu: reprodukce, sběr časových značek, ověření rozsahu (host/zóna/site).
  2. Rychlá telemetrie: ping/jitter/loss, mtr; kontrola portových chyb, CPU, paměti, teplot.
  3. Izolace vrstvy: ARP/ND, DHCP/DNS, L2 smyčky, routování, ACL/NAT, TLS.
  4. Hypotéza & test: změna cesty, DSCP značkování, snížení MSS/MTU, dočasné vypnutí offloadů.
  5. Remediace: QoS politika, změna směrování, rate-limit/shaping, oprava kování/kabelu, firmware.
  6. Post-mortem: příčinný strom (5× proč), akční položky, aktualizace runbooku.

QoS: klasifikace, značení a plánování front

  • Klasifikace: L2 CoS (802.1p), L3 DSCP (EF, AFxy, CSx), NBAR/L7; mapování na výstupní fronty.
  • Fronty: CBWFQ, LLQ (prioritní fronta pro hlas/video), WRED/ECN pro signál přetížení.
  • Shaping vs. Policing: shaping vyrovnává bursty (token bucket), policing zahazuje/remarkuje; používat shaping na okrajích WAN.
  • Bufferbloat a AQM: FQ-CoDel/PIE zkracují latenci při plném zatížení.

Směrování a řízení cest

  • IGP: OSPF/ISIS – kostra, cost/metric tuning, LFA/FRR pro rychlou rekonvergenci.
  • BGP: policy-based routing, MED/LocalPref/AS-Path prepending; blackhole/RPZ pro mitigaci DDoS.
  • SD-WAN: dynamický výběr cesty (SLA: loss/latency/jitter), FEC, packet duplication; segmentace provozu.

Adresace, MTU a fragmentace

  • IPv4/IPv6: SLAAC/DHCPv6, ND bezpečnost (RA-Guard), dual-stack vs. NAT64/DNS64.
  • MTU: Path MTU Discovery, tune MSS na hraně tunelů (IPsec/GRE/VXLAN) k eliminaci fragmentace.

DNS, DHCP, NTP a jejich vliv na výkon

  • DNS: latency resolvování, cache hit rate, ECS (EDNS Client Subnet) v CDNs, DNSSEC režie.
  • DHCP: vyčerpání poolů, špatné relaye (IP helper), konflikty adres.
  • NTP/PTP: nekonzistentní čas komplikuje korelaci logů; PTP pro nízkou latenci v finančních/OT sítích.

Observabilita: logy, metriky, trasy a události

  • Centralizace: syslog (structured), NetFlow/IPFIX, SNMP traps do SIEM/TSDB; korelace s aplikačními APM metrikami.
  • Distribuované trasování: OpenTelemetry – propojení síťových a aplikačních tras (span/trace id).
  • Dashboardy: 95./99. percentil latence, saturace linek, chybovost portů, mapy závislostí.

Automatizace a deklarativní správa

  • Konfigurační modely: YANG/NETCONF/RESTCONF, gNMI; „source of truth“ (Git) a CI/CD pipelines.
  • Templating: Jinja2, validace proti schématům; tranzitní testy (batfish) před nasazením.
  • Compliance: drift detection, auto-remediation, Role-Based Access Control.

Bezpečnost provozu (NDR, IDS/IPS, Zero Trust)

  • NDR/IDS: behaviorální analýza toků (DGA, beaconing), TLS fingerprinting (JA3/JA4), detekce laterálního pohybu.
  • Segmentace: VRF/VLAN/SGT/ACL, mikrosegmentace (host-firewall, SDP).
  • Šifrování: IPsec/DTLS/MACsec; vliv na MTU a telemetrii (omezená viditelnost L7).
  • DDoS: RTBH, flowspec, scrubbing; rate-limit control plane (CoPP).

Wi-Fi a mobilní přístup jako součást správy provozu

  • RRM: plán kanálů, šířky (2,4: 20 MHz; 5: 40/80 MHz dle hustoty; 6 GHz preferenčně 80 MHz), TX power balance.
  • Klientská zkušenost: SNR distribuce, retry, roamingové časy, kategorie zařízení; band steering a min RSSI.
  • Kvalita pro hlas/VC: SSID hygiene (min SSID), WMM/EDCA, DSCP mapping přes WLAN, PPS limity.

Kapacitní plánování a modelování

  • Trendování: 95. percentil využití linek, bursty, denní/mesační sezónnost.
  • What-if: simulace přesměrování, výpadků, migrací (např. Anycast změny, nový uplink).
  • CDN/Peering: optimalizace cest k obsahovým uzlům, měření RTT k anycastovým IP.

Procesy provozu: NOC, incidenty a změnové řízení

  • Incident management: severity, SLA, eskalační matice; komunikační šablony.
  • Problem management: kořenová příčina (RCA), prevence opakování, znalostní báze.
  • Change management: údržbová okna, „pre-change“ testy, plán rollbacku, canary nasazení.

Checklist pro rychlou diagnostiku

  1. Je problém lokální nebo plošný? (telemetrie, heatmapy, status uplinků)
  2. Portové chyby/duplex/rychlost/optika? (CRC, LOS, Tx/Rx power)
  3. ARP/ND/DHCP/DNS funkční? (léčky: stale ARP, vyčerpaný pool, pomalé DNS)
  4. MTU/MSS na cestě? (DF bit, tunely, PMTUD)
  5. Routování symetrické? (ECMP, PBR, NAT)
  6. QoS nedegraduje klíčové třídy? (dropy v priority queue, shaping hit)
  7. Bezpečnostní prvky neblokují? (IPS, GeoIP, FW policy)

Tabulka běžných symptomů a příčin

Symptom Pravděpodobná příčina Ověření/Řešení
Vysoká latence na WAN Queueing, bufferbloat AQM (FQ-CoDel), shaping na CIR, QoS audit
Náhodné výpadky Flapping linky, STP změny Syslog/STP topo změny, výměna kabelu, kování
Padá VPN MTU v tunelu, rekey, ztráty MSS clamp, PMTUD, profil SA, stabilita RTT
Pomalé weby DNS, TLS handshake, congested path RUM syntetika, TCP SYN/ACK RTT, změna peeringu
Špatná Wi-Fi CCI/ACI, nízké SNR, sticky clients RRM audit, min RSSI, band steering, kanály

Správa konfigurací a inventář

  • Inventarizace: unikátní identifikátory zařízení, modulů a rozhraní; mapy topologie (L2/L3) a závislostí.
  • Zálohy: verze konfigurací, golden image; automatické zálohy při změně (syslog trigger, API webhook).

Compliance, audit a forenzní připravenost

  • Retence: pcap krátkodobě (minuty–hodiny), flow data (dny–měsíce), logy (měsíce–roky dle regulace).
  • Časová synchronizace: jednotný čas pro korelaci událostí; verifikace NTP zdrojů.
  • Privátní data: minimalizace PII ve flow/logu; řízení přístupu k telemetrii.

Best practices pro dlouhodobou stabilitu

  • Definujte SLO pro klíčové služby a měřte je z pohledu uživatele (syntetika + RUM).
  • Standardizujte QoS politiky napříč hranami i core; auditujte dropy ve frontách.
  • Automatizujte konfiguraci (declarative IaC), validujte změny offline a používejte canary rollout.
  • Udržujte „source of truth“ a topologické grafy; vizualizujte závislosti (aplikace ↔ síť).
  • Pravidelně testujte obnovu (backup/restore), plán DR a simulujte výpadky (game days).

Závěr

Profesionální diagnostika a správa síťového provozu kombinuje kvalitní telemetrii, promyšlené QoS, robustní směrování, automatizaci a jasné provozní procesy. Díky měřitelným SLI/SLO, konzistentním konfiguracím a průběžné analýze toků lze předcházet incidentům, rychle řešit problémy a dlouhodobě optimalizovat náklady i uživatelskou zkušenost.

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *