Cíle a rozhodovací rámec
Mikroservisní infrastruktura poskytuje nezávisle nasaditelné, škálovatelné a doménově orientované služby propojené přes síť. Cílem je zrychlit změnu, zvýšit odolnost a umožnit autonomii týmů. Než začnete, definujte: obchodní cíle, nefunkční požadavky (SLO, latence, dostupnost, náklady), regulatorní omezení a rozpočtová/kompetenční rizika. Mikroservisy nejsou dogma – zvažte je tam, kde monolit naráží na limity organizace, doménové složitosti nebo škálování.
Doménové vymezení a hranice služeb
- Domain-Driven Design (DDD): identifikujte bounded contexts a mapujte je na služby. Jedna služba = jeden jasný business capability.
- Koheznost a coupling: maximalizujte vnitřní soudržnost (cohesion), minimalizujte mezi-službové vazby. Vyhněte se entity services bez jasné logiky.
- Granularita: příliš jemné služby zvyšují latenci a provozní zátěž; začněte hrubšími hranicemi a teprve potom případně štěpte.
- Vlastnictví dat: každá služba vlastní svůj datový model a úložiště; žádné sdílené databázové schéma napříč službami.
Komunikační vzory: synchronní vs. asynchronní
- Synchronní API (REST/gRPC): jednoduché dotaz-odpověď, vhodné pro čtení a krátké operace. Pozor na řetězení volání a n+1 závislosti.
- Asynchronní messaging (eventy, fronty, streamy): Kafka/Pulsar/RabbitMQ pro volné vazby, škálování a odolnost. Umožňuje event-driven integraci a choreografii.
- Orchestrace vs. choreografie: složité workflow řešte buď centrálním orchestrátorem (Camunda/Temporal) nebo distribuovanou choreografií (sagy přes eventy). Volba závisí na auditovatelnosti a složitosti kompenzací.
API návrh, verze a kontrakty
- Kontrakt-first: OpenAPI/AsyncAPI/Protobuf jako zdroj pravdy, generování klientů a stubů.
- Verzování:
v1/v2nebo schémata v hlavičkách; u eventů verzujte schema registry (např. Avro/JSON Schema) a preferujte kompatibilní změny. - Stabilita kontraktů: přidávání polí je obvykle kompatibilní; odstraňování či změna typu vyžaduje novou verzi.
- API Gateway: centralizuje autentizaci, throttling, agregaci, canary směrování a backends for frontends (BFF).
Data, konzistence a transakce
- Polyglot persistence: volba úložiště dle charakteru domény (relace/NoSQL/time-series/search).
- Eventual consistency: akceptujte, že ne vše je silně konzistentní. Publikujte domain events po potvrzení lokální transakce.
- Sagy: distribuované transakce řešte kompenzačními akcemi. Každý krok musí být idempotentní a opakovatelný.
- Outbox pattern: zapisujte event do tabulky outbox a přenášejte spolehlivě do brokera (transactional outbox + CDC).
Odolnost a řízení chyb
- Idempotence a at-least-once doručení: použijte idempotentní klíče a deduplikaci na spotřebiteli.
- Time-outy, retry s backoffem a jitterem: nastavte rozumné limity; rozlišujte retriable vs. non-retriable chyby.
- Circuit breaker a bulkhead: izolujte zdroje; bráníte kaskádovým selháním.
- Rate limiting a backpressure: chraňte upstreamy a udržujte stabilitu během špiček.
Bezpečnost a řízení přístupu
- Identita a federace: OIDC/OAuth 2.1 pro uživatele; SPIFFE/SPIRE/SVID pro identitu služeb a mTLS.
- Autorizace: RBAC/ABAC nebo centrální policy engine (OPA) s policy-as-code.
- Šifrování: TLS 1.3 v síti, šifrování dat v klidu; rotace klíčů v KMS/HSM, tajemství mimo image (Secrets).
- Zero trust: explicitní povolení komunikace (network policies), žádné implicitní důvěry uvnitř clustru.
Service Mesh a síťová vrstva
- Service discovery a load-balancing: DNS/Envoy/Consul. Objevování endpointů a L7 směrování s observabilitou.
- Service mesh (Istio/Linkerd): jednotné mTLS, traffic shaping (canary, mirroring), retries, timeouts, circuit breaking bez změn v kódu.
- Network policies: segmentace komunikace mezi jmennými prostory a službami.
Observabilita: logy, metriky a trasování
- Metriky: RED (Rate, Errors, Duration) pro API, USE (Utilization, Saturation, Errors) pro infrastrukturu. Export do Promethea; SLO/SLI definované na úrovni domén.
- Distribuované trasování: OpenTelemetry → backend (Jaeger/Tempo/Zipkin); korelační ID propisovat mezi službami.
- Logy: strukturovaný JSON, jednotné pole
traceId/spanId, zákaz citlivých dat; centralizace (ELK/Vector/Fluent Bit). - Alerting: na porušení SLO (error budget), nikoli na šum. Runbooky a auto-remediation.
CI/CD a řízení releasů
- Pipelines: lint → jednotkové/integrace → kontraktové testy → build image → SCA/scan → podpis → deployment.
- Strategie: blue/green, canary, progressive delivery (Argo Rollouts/Flagger). Feature flags pro řídící aktivaci funkcí.
- Prostředí: dev/test/stage/prod, izolace tajemství a konfigurací; GitOps (Argo CD/Flux) jako single source of truth.
Platforma: kontejnery, orchestrace a runtime
- Kubernetes jako standardní orchestrátor: Deployment/StatefulSet, Services, Ingress/Gateway API, HPA/VPA, PodDisruptionBudget.
- Konfigurace a tajemství: ConfigMap/Secrets, encrypt at rest, sealed secrets; hierarchická konfigurace podle prostředí.
- Zdrojové limity: requests/limits, QoS třídy; šetřete CPU/ram pro JIT jazyky (warmup, jemné GC).
- Persistentní data: CSI drivere, zálohovací operátory; pro DB zvažte spravované služby (RDS/CloudSQL) vs. vlastní operátory (postgres-operator).
Správa schémat a verzí dat
- Schema registry: kontrola kompatibility (backward/forward).
- Migrace databází: migrátory (Flyway/Liquibase) s expand/contract strategií.
- Event sourcing & CQRS: pro složitá doménová pravidla a auditovatelnost; počítejte s náklady na projekce a re-play.
Testování v mikroservisním světě
- Contract testing: spotřebitel vs. poskytovatel (Pact), brání rozbití integrace.
- Testcontainers: integrační testy proti reálným závislostem v kontejnerech.
- Chaos engineering: výpadky uzlů, zpoždění, packet loss; ověřte odolnost proti částečným poruchám.
- Load a capacity: sledujte p95/p99 latenci, saturaci vláken, fronty a backpressure.
Edge vrstva a caching
- API Gateway / Ingress: autentizace, WAF, rate-limit, request/response transformace, geo a canary routing.
- Cache: CDN/edge cache pro statiku; aplikační cache (Redis) pro hot path; invalidace řízená eventy.
- Content negotiation a komprese: Gzip/Brotli na edge; preferujte HTTP/2/3.
Monitoring nákladů a efektivity
- Cost observability: přiřazujte náklady na služby (labels/annotations), sledujte cost per request/tenant.
- Optimalizace: right-sizing podů, autoscaling podle metrik domény (front depth), vypínání nevyužitých prostředí.
Více tenantů a izolace
- Model multi-tenancy: shared-nothing (izolované instance), shared-with-guards (tenant ID v datech + row-level security) nebo hybrid.
- Izolace rizik: rate-limit per tenant, limity kvót, oddělené fronty/partitions pro prioritizaci.
Compliance, audit a správa dat
- Audit logy: kdo/co/kdy, neměnitelné úložiště (WORM); korelace s trasami.
- Privacy-by-design: minimalizace dat, šifrování, data retention, mazání na žádost (GDPR/ekvivalenty).
- SBOM a supply-chain: podpisy imagí (cosign), sken zranitelností (Trivy), politiky nasazení (OPA/Gatekeeper).
Organizační model a provoz
- „You build it, you run it“: tým vlastní službu end-to-end (kód, infra, alerty, náklady).
- Platform engineering: poskytuje samoobslužné zlaté cesty (CI/CD šablony, observabilita, runtime) a katalog služeb.
- Runbooky a SRE: definujte SLO, error budget policy, incident response, postmortems bez obviňování.
Checklist návrhu mikroservisní infrastruktury
- Jasně definované bounded contexts a vlastnictví dat každé služby.
- Kontrakt-first API, verzování a schema registry pro eventy.
- Asynchronní integrace pro cross-doménové toky, outbox + sagy.
- Idempotence, retry/backoff, circuit breaker, rate-limit.
- mTLS, OIDC, centralizovaná autorizace, správa tajemství v KMS.
- Observabilita: metriky RED/USE, trace, strukturované logy, SLO/SLI.
- Kubernetes s GitOps, limity/requests, PDB, autoscaling.
- CI/CD s canary/blue-green, podpis imagí, SCA/DAST v pipeline.
- Edge: API Gateway, WAF, caching, traffic shaping.
- Compliance: audit logy, retention, SBOM, politiky nasazení.
Závěr
Návrh mikroservisní infrastruktury je kombinací správně vymezených domén, robustních integračních vzorů, bezpečné a pozorovatelné platformy a disciplinovaných týmových praktik. Úspěch spočívá v koherentních hranicích, asynchronní komunikaci, automatizovaném a bezpečném provozu a měřitelných cílech spolehlivosti. Začněte jednoduchými hranicemi, investujte do platformy a observability a evolučně iterujte podle skutečných potřeb domény a uživatelů.