Proč různé architektury v deep learningu
Konvoluční (CNN), rekurentní (RNN) a Transformer architektury představují tři zásadně odlišné přístupy ke zpracování dat. Liší se ve strukturálních induktivních bias (lokalita a translační invariance u CNN, kauzalita a paměť u RNN, plně konektivní pozornost u Transformerů), výpočetní složitosti, paralelizovatelnosti a typických doménách nasazení. Správná volba ovlivňuje přesnost, latenci, paměťovou stopu i náklady na trénink a inference.
Společný rámec: vrstvy, normalizace, nelinearity a učení
- Vrstvy: lineární/afinní transformace, konvoluce, rekurence, pozornost; často prokládané nelinearitami (ReLU, GELU, Tanh) a normalizacemi (BatchNorm, LayerNorm, RMSNorm).
- Reziduální konektory: zkracují gradientovou cestu a stabilizují trénink hlubokých modelů.
- Ztrátové funkce: křížová entropie pro klasifikaci, MSE/L1 pro regrese, sekvenční ztráty s maskováním, kontrastní ztráty u učení bez dohledu.
- Optimalizace: Adam/AdamW s váhovým rozpadem, plánovače učení (cosine, warmup), mixup/cutmix, label smoothing; regularizace (dropout, stochastic depth).
Konvoluční neuronové sítě (CNN): princip a stavební kameny
CNN využívají lokální receptivní pole, sdílení vah a často pooling pro extrakci translačně invariantních rysů. Jsou přirozeně vhodné pro obrazová a gridová data, ale uplatní se i v audiodoméně (spektrogramy) či 1D signálech.
- Konvoluce: 1D/2D/3D; standardní, dilatované (rozšířený dosah bez ztráty rozlišení), separabilní (depthwise separable) pro snížení výpočtů.
- Pooling: max/average/adaptivní; snižuje rozlišení a zvyšuje robustnost vůči posunu a šumu.
- BatchNorm + ReLU/GELU: standardní bloky (např. Conv–BN–ReLU) stabilizují trénink.
Typické CNN architektury a trendy
- VGG/ResNet: hluboké sítě s reziduálními skipy; ResNet umožnil efektivní trénink stovek vrstev.
- Inception/GoogLeNet: paralelní větve různých kernelů; efektivní extrakce multi-scale rysů.
- MobileNet/EfficientNet: depthwise separabilní konvoluce, compound scaling (šířka/hloubka/rozlišení) pro efektivitu na okraji (edge).
- UNet/FPN: encoder–decoder se skipy pro segmentaci; zachování jemných detailů.
- Konvoluční náhrady pozornosti: ConvNeXt, hybridy s lokální pozorností pro škálovatelnost.
Silné a slabé stránky CNN
- Výhody: výborná induktivní bias pro obrazy, menší datové nároky, efektivní inference, stabilní trénink.
- Omezení: obtížná modelace dlouhého dosahu a globálních vztahů; pevné mřížky a lokální filtry mohou vyžadovat hluboké zásobníky pro kontext.
Rekurentní neuronové sítě (RNN): kauzalita a paměť
RNN zpracovávají sekvence postupně a aktualizují skrytý stav. Jsou přirozeně kauzální a vhodné pro časové řady a sekvenční modelování.
- Vanilla RNN: jednoduché, ale trpí mizejícími/explodujícími gradienty u dlouhých kontextů.
- LSTM/GRU: gated mechanizmy (vstupní, výstupní, zapomínací brány) zlepšují udržení informace.
- Bidirectional RNN: využívají minulý i budoucí kontext (nekausální inference – vhodné pro offline úlohy).
Architektury nad RNN
- Seq2Seq s pozorností: encoder–decoder, kde pozornost řeší „bottleneck“ pevné délky kontextu.
- CTC (Connectionist Temporal Classification): pro zarovnání bez explicitních anotací (ASR, OCR).
- Temporal ConvNets/WaveNet: kauzální dilatované konvoluce jako rychlejší alternativa k rekurencím.
Výhody a limity RNN
- Výhody: přirozená kauzalita, malá paměťová stopa pro dlouhé streamy, vhodné pro nízkou latenci.
- Omezení: špatná paralelizace při tréninku, potíže s extrémně dlouhými závislostmi (i u LSTM), složitější stabilizace.
Transformery: pozornost jako univerzální operátor
Transformery opouštějí rekurenci i konvoluce ve prospěch self-attention, která umožňuje modelovat všechny páry tokenů v sekvenci. To zlepšuje přístup k dlouhému kontextu a masivní paralelizaci na GPU/TPU, ale přináší kvadratickou složitost O(n²) v délce sekvence.
Stavební bloky Transformeru
- Vstupní embedování a poziční informace: sinusoidní, naučené, relativní (pro lepší generalizaci v délce), rotační (RoPE).
- Multi-Head Self-Attention (MHSA): více hlav promítá tokeny do různých „projekčních prostorů“. Každá hlava: Q = XWQ, K = XWK, V = XWV, skóre = softmax(QKᵀ/√d)V.
- Feed-Forward síť (FFN/MLP): dvě lineární vrstvy s nelinearitou (GELU/SiLU), často se šířkou 3–8× skryté dimenze.
- Normalizace a rezidua: Pre-LN (LayerNorm před bloky) stabilizuje trénink hlubokých modelů.
- Maskování: kausální masky u dekodérů (jazykové modely), plná pozornost u enkodérů (BERT-like).
Varianty Transformerů
- Encoder-only: BERT-style pro porozumění (maskované učení), klasifikace, retrieval.
- Decoder-only: autoregresivní LLM (generace textu, kód, multimodální dekodéry).
- Encoder–Decoder: seq2seq (překlad, shrnutí); cross-attention spojuje zdroj a cíl.
- Efektivní pozornost: Linformer, Performer, Longformer, BigBird (řidší/lineární složitost), flash-attention pro efektivní implementaci.
- Vision Transformers (ViT, Swin): patchování obrazu, hierarchické okna/posuvy; hybridy s konvolucemi.
- Audio/Time-Series Transformers: spektrální tokenizace, lokální pozornost, Nystrom metody.
Porovnání induktivních bias a kdy sáhnout po které architektuře
- Obrazy: CNN/ViT; u menších dat CNN typicky vítězí (silný bias), u velkých dat ViT dohání/překonává.
- Časové řady a streaming: RNN/Temporal CNN pro nízkou latenci; Transformers pro dlouhý kontext a multivariantní vztahy.
- Jazyk a tokenové sekvence: Transformers (state-of-the-art); u embedded/edge může dávat smysl malé RNN/CNN.
- Segmentace a dense predikce: UNet/FPN (CNN) nebo U-ViT/Segmenter (Transformer) dle velikosti datasetu a HW.
Metriky a výpočetní nároky
- Složitost: CNN ~ O(k²·C) na pixel/patch; RNN ~ O(n·d²) sekvenčně; Transformer self-attention ~ O(n²·d) (paměť i výpočet).
- Paralelizace: Transformers a CNN dobře škálují datově i modelově; RNN jsou sekvenční (pomalý trénink, rychlá streamová inference).
- Energetika: pozornost dominuje paměťovým přístupům; efektivní implementace (kvantizace, sparsity) jsou klíčové pro náklady.
Regularizace a stabilita tréninku
- CNN: data augmentace (flip, crop, color jitter), mixup/cutmix; BatchNorm jako implicitní regularizér.
- RNN: gradient clipping, variational dropout, orthogonal initialization; pečlivé nastavení LSTM/GRU.
- Transformers: dropout/attention dropout, label smoothing, weight decay (AdamW), warmup, stabilní LN (RMSNorm), správná škála inicializace a FP16/BF16 s APEX/ZeRO.
Škálování modelů a emergentní chování
Zvětšování dat, parametrů a výpočetního rozpočtu typicky následuje škálovací zákony se sublineárními zisky. U Transformerů se objevují emergentní schopnosti (kompozice, instrukční následování) po překročení jistých prahů. Pro CNN se škáluje rozlišení, hloubka a šířka; u RNN spíše délka skrytého stavu a počet vrstev.
Parametrová efektivita a adaptace
- Transfer learning: předtrénované encodery (CNN/ViT/BERT) s fine-tuningem.
- Adaptery/LoRA: nízkorozměrné aktualizace vah (low-rank) umožňují levný task-specific tuning Transformerů.
- Pruning a distilace: zmenšení modelů (structured/unstructured) a převod znalostí do menších sítí.
- Kvantizace: INT8/INT4 pro inference na CPU/edge; pozor na přesnost u pozornosti a normalizací.
Více-modalitní a hybridní architektury
- CNN + Transformer: konvoluční stem pro lokální textury + globální self-attention pro dlouhý dosah.
- RNN + Attention: klasický seq2seq; u ASR/MT stále relevantní, pokud je klíčová kauzalita a latence.
- CLIP-like a Perceiver-IO: jednotná pozornost napříč modality s latenty pevné velikosti.
Interpretovatelnost a vysvětlitelnost
- CNN: saliency/Grad-CAM, vizualizace filtrů a aktivací.
- RNN: analýza skrytých stavů a brán, influence funkcí; obtížnější globální interpretace.
- Transformers: attention mapy, attribution metody, „mechanistic interpretability“ u hlav a MLP neuronů; pozor na mylný výklad intenzity pozornosti jako kauzality.
Nasazení a provoz (MLOps)
- Pipeline: datová hygiena, verze datasetů, reprodukovatelnost (seed, determinismus), CI/CD pro modely.
- Monitoring: drift dat a výkonu, out-of-distribution detekce, bezpečnostní aktualizace závislostí.
- Serving: batching/streaming, A/B testy, canary release; pro Transformers cache klíčů/hodnot (KV-cache) pro urychlení autoregrese.
Bezpečnost a etika
- Robustnost: útoky na vstupy (adversarial), otrava dat (data poisoning), prompt injekce u LLM; obrana datovou i modelovou cestou.
- Soukromí: diferencované soukromí, federované učení, šifrování během tréninku/inference (HE/MPC – dopad na výkon).
- Bias a spravedlnost: audit tréninkových dat, metriky fairness, lidská kontrola výstupů.
Praktický rozhodovací strom (zjednodušení)
- Máte obrazy a málo dat/HW? Začněte CNN + transfer learning; pro velká data a pre-training zvažte ViT/hybrid.
- Potřebujete nízkou latenci na streamu? RNN/Temporal CNN; pokud dlouhý kontext a vyšší HW, efektivní Transformers.
- Text, kód, multimodální generace? Transformers (encoder/decoder dle úkolu), s PEFT (LoRA) pro adaptaci.
Case-study nástřely
- Průmyslová vizuální inspekce: EfficientNet/UNet → real-time inference na edge, kvantizace INT8.
- Predikce poptávky: GRU se statickými featurami + attention; fallback na Transformer Encoder pro dlouhé závislosti.
- Strojový překlad: encoder–decoder Transformer, sdílený tokenizer, dlouhé sekvence s efektivní pozorností.
Nejčastější úskalí a jak se jim vyhnout
- Nedostatečný regularizační rozpočet: přeučení; využijte data augmentace, dropout, early stopping, mixup.
- Špatná škála učení a warmup: u Transformerů vede k divergnímu tréninku; používejte warmup a AdamW.
- Nekompatibilní normalizace: BatchNorm v malých batchech (CNN) → zvažte Group/LayerNorm.
- Podcenění nákladů na sekvenční délku: u Transformerů roste paměť kvadraticky – řešte truncation, windowing, efektivní attention, přesuny do FP8/bfloat16.
Závěr
CNN, RNN a Transformery nejsou vzájemně zaměnitelné – každá rodina architektur přináší jiný soubor induktivních bias, výpočetních kompromisů a provozních nároků. CNN excelují na obrazech a gridových datech s menším počtem vzorků, RNN dominují v kauzálních streamech s nízkou latencí a Transformery jsou univerzálním standardem pro dlouhé kontexty a generativní úlohy. Úspěch v praxi vychází z realistického odhadu zdrojů, vhodné předvolby architektury, důsledné optimalizace (regularizace, škálování, PEFT) a robustního MLOps. V mnoha aplikacích vítězí hybridní přístup, který kombinuje silné stránky jednotlivých paradigmů.