CNN, RNN, Transformer architektury – Ekonomická encyklopédia

Proč různé architektury v deep learningu

Konvoluční (CNN), rekurentní (RNN) a Transformer architektury představují tři zásadně odlišné přístupy ke zpracování dat. Liší se ve strukturálních induktivních bias (lokalita a translační invariance u CNN, kauzalita a paměť u RNN, plně konektivní pozornost u Transformerů), výpočetní složitosti, paralelizovatelnosti a typických doménách nasazení. Správná volba ovlivňuje přesnost, latenci, paměťovou stopu i náklady na trénink a inference.

Společný rámec: vrstvy, normalizace, nelinearity a učení

Vrstvy: lineární/afinní transformace, konvoluce, rekurence, pozornost; často prokládané nelinearitami (ReLU, GELU, Tanh) a normalizacemi (BatchNorm, LayerNorm, RMSNorm).
Reziduální konektory: zkracují gradientovou cestu a stabilizují trénink hlubokých modelů.
Ztrátové funkce: křížová entropie pro klasifikaci, MSE/L1 pro regrese, sekvenční ztráty s maskováním, kontrastní ztráty u učení bez dohledu.
Optimalizace: Adam/AdamW s váhovým rozpadem, plánovače učení (cosine, warmup), mixup/cutmix, label smoothing; regularizace (dropout, stochastic depth).

Konvoluční neuronové sítě (CNN): princip a stavební kameny

CNN využívají lokální receptivní pole, sdílení vah a často pooling pro extrakci translačně invariantních rysů. Jsou přirozeně vhodné pro obrazová a gridová data, ale uplatní se i v audiodoméně (spektrogramy) či 1D signálech.

Konvoluce: 1D/2D/3D; standardní, dilatované (rozšířený dosah bez ztráty rozlišení), separabilní (depthwise separable) pro snížení výpočtů.
Pooling: max/average/adaptivní; snižuje rozlišení a zvyšuje robustnost vůči posunu a šumu.
BatchNorm + ReLU/GELU: standardní bloky (např. Conv–BN–ReLU) stabilizují trénink.

Typické CNN architektury a trendy

VGG/ResNet: hluboké sítě s reziduálními skipy; ResNet umožnil efektivní trénink stovek vrstev.
Inception/GoogLeNet: paralelní větve různých kernelů; efektivní extrakce multi-scale rysů.
MobileNet/EfficientNet: depthwise separabilní konvoluce, compound scaling (šířka/hloubka/rozlišení) pro efektivitu na okraji (edge).
UNet/FPN: encoder–decoder se skipy pro segmentaci; zachování jemných detailů.
Konvoluční náhrady pozornosti: ConvNeXt, hybridy s lokální pozorností pro škálovatelnost.

Silné a slabé stránky CNN

Výhody: výborná induktivní bias pro obrazy, menší datové nároky, efektivní inference, stabilní trénink.
Omezení: obtížná modelace dlouhého dosahu a globálních vztahů; pevné mřížky a lokální filtry mohou vyžadovat hluboké zásobníky pro kontext.

Rekurentní neuronové sítě (RNN): kauzalita a paměť

RNN zpracovávají sekvence postupně a aktualizují skrytý stav. Jsou přirozeně kauzální a vhodné pro časové řady a sekvenční modelování.

Vanilla RNN: jednoduché, ale trpí mizejícími/explodujícími gradienty u dlouhých kontextů.
LSTM/GRU: gated mechanizmy (vstupní, výstupní, zapomínací brány) zlepšují udržení informace.
Bidirectional RNN: využívají minulý i budoucí kontext (nekausální inference – vhodné pro offline úlohy).

Architektury nad RNN

Seq2Seq s pozorností: encoder–decoder, kde pozornost řeší „bottleneck“ pevné délky kontextu.
CTC (Connectionist Temporal Classification): pro zarovnání bez explicitních anotací (ASR, OCR).
Temporal ConvNets/WaveNet: kauzální dilatované konvoluce jako rychlejší alternativa k rekurencím.

Výhody a limity RNN

Výhody: přirozená kauzalita, malá paměťová stopa pro dlouhé streamy, vhodné pro nízkou latenci.
Omezení: špatná paralelizace při tréninku, potíže s extrémně dlouhými závislostmi (i u LSTM), složitější stabilizace.

Transformery: pozornost jako univerzální operátor

Transformery opouštějí rekurenci i konvoluce ve prospěch self-attention, která umožňuje modelovat všechny páry tokenů v sekvenci. To zlepšuje přístup k dlouhému kontextu a masivní paralelizaci na GPU/TPU, ale přináší kvadratickou složitost O(n²) v délce sekvence.

Stavební bloky Transformeru

Vstupní embedování a poziční informace: sinusoidní, naučené, relativní (pro lepší generalizaci v délce), rotační (RoPE).
Multi-Head Self-Attention (MHSA): více hlav promítá tokeny do různých „projekčních prostorů“. Každá hlava: Q = XW_Q, K = XW_K, V = XW_V, skóre = softmax(QKᵀ/√d)V.
Feed-Forward síť (FFN/MLP): dvě lineární vrstvy s nelinearitou (GELU/SiLU), často se šířkou 3–8× skryté dimenze.
Normalizace a rezidua: Pre-LN (LayerNorm před bloky) stabilizuje trénink hlubokých modelů.
Maskování: kausální masky u dekodérů (jazykové modely), plná pozornost u enkodérů (BERT-like).

Varianty Transformerů

Encoder-only: BERT-style pro porozumění (maskované učení), klasifikace, retrieval.
Decoder-only: autoregresivní LLM (generace textu, kód, multimodální dekodéry).
Encoder–Decoder: seq2seq (překlad, shrnutí); cross-attention spojuje zdroj a cíl.
Efektivní pozornost: Linformer, Performer, Longformer, BigBird (řidší/lineární složitost), flash-attention pro efektivní implementaci.
Vision Transformers (ViT, Swin): patchování obrazu, hierarchické okna/posuvy; hybridy s konvolucemi.
Audio/Time-Series Transformers: spektrální tokenizace, lokální pozornost, Nystrom metody.

Porovnání induktivních bias a kdy sáhnout po které architektuře

Obrazy: CNN/ViT; u menších dat CNN typicky vítězí (silný bias), u velkých dat ViT dohání/překonává.
Časové řady a streaming: RNN/Temporal CNN pro nízkou latenci; Transformers pro dlouhý kontext a multivariantní vztahy.
Jazyk a tokenové sekvence: Transformers (state-of-the-art); u embedded/edge může dávat smysl malé RNN/CNN.
Segmentace a dense predikce: UNet/FPN (CNN) nebo U-ViT/Segmenter (Transformer) dle velikosti datasetu a HW.

Metriky a výpočetní nároky

Složitost: CNN ~ O(k²·C) na pixel/patch; RNN ~ O(n·d²) sekvenčně; Transformer self-attention ~ O(n²·d) (paměť i výpočet).
Paralelizace: Transformers a CNN dobře škálují datově i modelově; RNN jsou sekvenční (pomalý trénink, rychlá streamová inference).
Energetika: pozornost dominuje paměťovým přístupům; efektivní implementace (kvantizace, sparsity) jsou klíčové pro náklady.

Regularizace a stabilita tréninku

CNN: data augmentace (flip, crop, color jitter), mixup/cutmix; BatchNorm jako implicitní regularizér.
RNN: gradient clipping, variational dropout, orthogonal initialization; pečlivé nastavení LSTM/GRU.
Transformers: dropout/attention dropout, label smoothing, weight decay (AdamW), warmup, stabilní LN (RMSNorm), správná škála inicializace a FP16/BF16 s APEX/ZeRO.

Škálování modelů a emergentní chování

Zvětšování dat, parametrů a výpočetního rozpočtu typicky následuje škálovací zákony se sublineárními zisky. U Transformerů se objevují emergentní schopnosti (kompozice, instrukční následování) po překročení jistých prahů. Pro CNN se škáluje rozlišení, hloubka a šířka; u RNN spíše délka skrytého stavu a počet vrstev.

Parametrová efektivita a adaptace

Transfer learning: předtrénované encodery (CNN/ViT/BERT) s fine-tuningem.
Adaptery/LoRA: nízkorozměrné aktualizace vah (low-rank) umožňují levný task-specific tuning Transformerů.
Pruning a distilace: zmenšení modelů (structured/unstructured) a převod znalostí do menších sítí.
Kvantizace: INT8/INT4 pro inference na CPU/edge; pozor na přesnost u pozornosti a normalizací.

Více-modalitní a hybridní architektury

CNN + Transformer: konvoluční stem pro lokální textury + globální self-attention pro dlouhý dosah.
RNN + Attention: klasický seq2seq; u ASR/MT stále relevantní, pokud je klíčová kauzalita a latence.
CLIP-like a Perceiver-IO: jednotná pozornost napříč modality s latenty pevné velikosti.

Interpretovatelnost a vysvětlitelnost

CNN: saliency/Grad-CAM, vizualizace filtrů a aktivací.
RNN: analýza skrytých stavů a brán, influence funkcí; obtížnější globální interpretace.
Transformers: attention mapy, attribution metody, „mechanistic interpretability“ u hlav a MLP neuronů; pozor na mylný výklad intenzity pozornosti jako kauzality.

Nasazení a provoz (MLOps)

Pipeline: datová hygiena, verze datasetů, reprodukovatelnost (seed, determinismus), CI/CD pro modely.
Monitoring: drift dat a výkonu, out-of-distribution detekce, bezpečnostní aktualizace závislostí.
Serving: batching/streaming, A/B testy, canary release; pro Transformers cache klíčů/hodnot (KV-cache) pro urychlení autoregrese.

Bezpečnost a etika

Robustnost: útoky na vstupy (adversarial), otrava dat (data poisoning), prompt injekce u LLM; obrana datovou i modelovou cestou.
Soukromí: diferencované soukromí, federované učení, šifrování během tréninku/inference (HE/MPC – dopad na výkon).
Bias a spravedlnost: audit tréninkových dat, metriky fairness, lidská kontrola výstupů.

Praktický rozhodovací strom (zjednodušení)

Máte obrazy a málo dat/HW? Začněte CNN + transfer learning; pro velká data a pre-training zvažte ViT/hybrid.
Potřebujete nízkou latenci na streamu? RNN/Temporal CNN; pokud dlouhý kontext a vyšší HW, efektivní Transformers.
Text, kód, multimodální generace? Transformers (encoder/decoder dle úkolu), s PEFT (LoRA) pro adaptaci.

Case-study nástřely

Průmyslová vizuální inspekce: EfficientNet/UNet → real-time inference na edge, kvantizace INT8.
Predikce poptávky: GRU se statickými featurami + attention; fallback na Transformer Encoder pro dlouhé závislosti.
Strojový překlad: encoder–decoder Transformer, sdílený tokenizer, dlouhé sekvence s efektivní pozorností.

Nejčastější úskalí a jak se jim vyhnout

Nedostatečný regularizační rozpočet: přeučení; využijte data augmentace, dropout, early stopping, mixup.
Špatná škála učení a warmup: u Transformerů vede k divergnímu tréninku; používejte warmup a AdamW.
Nekompatibilní normalizace: BatchNorm v malých batchech (CNN) → zvažte Group/LayerNorm.
Podcenění nákladů na sekvenční délku: u Transformerů roste paměť kvadraticky – řešte truncation, windowing, efektivní attention, přesuny do FP8/bfloat16.

Závěr

CNN, RNN a Transformery nejsou vzájemně zaměnitelné – každá rodina architektur přináší jiný soubor induktivních bias, výpočetních kompromisů a provozních nároků. CNN excelují na obrazech a gridových datech s menším počtem vzorků, RNN dominují v kauzálních streamech s nízkou latencí a Transformery jsou univerzálním standardem pro dlouhé kontexty a generativní úlohy. Úspěch v praxi vychází z realistického odhadu zdrojů, vhodné předvolby architektury, důsledné optimalizace (regularizace, škálování, PEFT) a robustního MLOps. V mnoha aplikacích vítězí hybridní přístup, který kombinuje silné stránky jednotlivých paradigmů.

Samuel Salaj komentoval SCRUM
Filip Sichman komentoval Parcela
Šajno komentoval Odvolateľný akreditív
Šajto komentoval AVV
DawnBreaker komentoval Spoločnosť s ručením obmedzeným
Ellen komentoval Úverová kalkulačka
Julius Simsky komentoval Priemysel
Dwaewiel komentoval IOST (IOST)
Veronika B. komentoval Finančný trh
Peter Trnka komentoval Počítačový vírus