CNN, RNN, Transformer architektury

CNN, RNN, Transformer architektury

Proč různé architektury v deep learningu

Konvoluční (CNN), rekurentní (RNN) a Transformer architektury představují tři zásadně odlišné přístupy ke zpracování dat. Liší se ve strukturálních induktivních bias (lokalita a translační invariance u CNN, kauzalita a paměť u RNN, plně konektivní pozornost u Transformerů), výpočetní složitosti, paralelizovatelnosti a typických doménách nasazení. Správná volba ovlivňuje přesnost, latenci, paměťovou stopu i náklady na trénink a inference.

Společný rámec: vrstvy, normalizace, nelinearity a učení

  • Vrstvy: lineární/afinní transformace, konvoluce, rekurence, pozornost; často prokládané nelinearitami (ReLU, GELU, Tanh) a normalizacemi (BatchNorm, LayerNorm, RMSNorm).
  • Reziduální konektory: zkracují gradientovou cestu a stabilizují trénink hlubokých modelů.
  • Ztrátové funkce: křížová entropie pro klasifikaci, MSE/L1 pro regrese, sekvenční ztráty s maskováním, kontrastní ztráty u učení bez dohledu.
  • Optimalizace: Adam/AdamW s váhovým rozpadem, plánovače učení (cosine, warmup), mixup/cutmix, label smoothing; regularizace (dropout, stochastic depth).

Konvoluční neuronové sítě (CNN): princip a stavební kameny

CNN využívají lokální receptivní pole, sdílení vah a často pooling pro extrakci translačně invariantních rysů. Jsou přirozeně vhodné pro obrazová a gridová data, ale uplatní se i v audiodoméně (spektrogramy) či 1D signálech.

  • Konvoluce: 1D/2D/3D; standardní, dilatované (rozšířený dosah bez ztráty rozlišení), separabilní (depthwise separable) pro snížení výpočtů.
  • Pooling: max/average/adaptivní; snižuje rozlišení a zvyšuje robustnost vůči posunu a šumu.
  • BatchNorm + ReLU/GELU: standardní bloky (např. Conv–BN–ReLU) stabilizují trénink.

Typické CNN architektury a trendy

  • VGG/ResNet: hluboké sítě s reziduálními skipy; ResNet umožnil efektivní trénink stovek vrstev.
  • Inception/GoogLeNet: paralelní větve různých kernelů; efektivní extrakce multi-scale rysů.
  • MobileNet/EfficientNet: depthwise separabilní konvoluce, compound scaling (šířka/hloubka/rozlišení) pro efektivitu na okraji (edge).
  • UNet/FPN: encoder–decoder se skipy pro segmentaci; zachování jemných detailů.
  • Konvoluční náhrady pozornosti: ConvNeXt, hybridy s lokální pozorností pro škálovatelnost.

Silné a slabé stránky CNN

  • Výhody: výborná induktivní bias pro obrazy, menší datové nároky, efektivní inference, stabilní trénink.
  • Omezení: obtížná modelace dlouhého dosahu a globálních vztahů; pevné mřížky a lokální filtry mohou vyžadovat hluboké zásobníky pro kontext.

Rekurentní neuronové sítě (RNN): kauzalita a paměť

RNN zpracovávají sekvence postupně a aktualizují skrytý stav. Jsou přirozeně kauzální a vhodné pro časové řady a sekvenční modelování.

  • Vanilla RNN: jednoduché, ale trpí mizejícími/explodujícími gradienty u dlouhých kontextů.
  • LSTM/GRU: gated mechanizmy (vstupní, výstupní, zapomínací brány) zlepšují udržení informace.
  • Bidirectional RNN: využívají minulý i budoucí kontext (nekausální inference – vhodné pro offline úlohy).

Architektury nad RNN

  • Seq2Seq s pozorností: encoder–decoder, kde pozornost řeší „bottleneck“ pevné délky kontextu.
  • CTC (Connectionist Temporal Classification): pro zarovnání bez explicitních anotací (ASR, OCR).
  • Temporal ConvNets/WaveNet: kauzální dilatované konvoluce jako rychlejší alternativa k rekurencím.

Výhody a limity RNN

  • Výhody: přirozená kauzalita, malá paměťová stopa pro dlouhé streamy, vhodné pro nízkou latenci.
  • Omezení: špatná paralelizace při tréninku, potíže s extrémně dlouhými závislostmi (i u LSTM), složitější stabilizace.

Transformery: pozornost jako univerzální operátor

Transformery opouštějí rekurenci i konvoluce ve prospěch self-attention, která umožňuje modelovat všechny páry tokenů v sekvenci. To zlepšuje přístup k dlouhému kontextu a masivní paralelizaci na GPU/TPU, ale přináší kvadratickou složitost O() v délce sekvence.

Stavební bloky Transformeru

  • Vstupní embedování a poziční informace: sinusoidní, naučené, relativní (pro lepší generalizaci v délce), rotační (RoPE).
  • Multi-Head Self-Attention (MHSA): více hlav promítá tokeny do různých „projekčních prostorů“. Každá hlava: Q = XWQ, K = XWK, V = XWV, skóre = softmax(QKᵀ/√d)V.
  • Feed-Forward síť (FFN/MLP): dvě lineární vrstvy s nelinearitou (GELU/SiLU), často se šířkou 3–8× skryté dimenze.
  • Normalizace a rezidua: Pre-LN (LayerNorm před bloky) stabilizuje trénink hlubokých modelů.
  • Maskování: kausální masky u dekodérů (jazykové modely), plná pozornost u enkodérů (BERT-like).

Varianty Transformerů

  • Encoder-only: BERT-style pro porozumění (maskované učení), klasifikace, retrieval.
  • Decoder-only: autoregresivní LLM (generace textu, kód, multimodální dekodéry).
  • Encoder–Decoder: seq2seq (překlad, shrnutí); cross-attention spojuje zdroj a cíl.
  • Efektivní pozornost: Linformer, Performer, Longformer, BigBird (řidší/lineární složitost), flash-attention pro efektivní implementaci.
  • Vision Transformers (ViT, Swin): patchování obrazu, hierarchické okna/posuvy; hybridy s konvolucemi.
  • Audio/Time-Series Transformers: spektrální tokenizace, lokální pozornost, Nystrom metody.

Porovnání induktivních bias a kdy sáhnout po které architektuře

  • Obrazy: CNN/ViT; u menších dat CNN typicky vítězí (silný bias), u velkých dat ViT dohání/překonává.
  • Časové řady a streaming: RNN/Temporal CNN pro nízkou latenci; Transformers pro dlouhý kontext a multivariantní vztahy.
  • Jazyk a tokenové sekvence: Transformers (state-of-the-art); u embedded/edge může dávat smysl malé RNN/CNN.
  • Segmentace a dense predikce: UNet/FPN (CNN) nebo U-ViT/Segmenter (Transformer) dle velikosti datasetu a HW.

Metriky a výpočetní nároky

  • Složitost: CNN ~ O(k²·C) na pixel/patch; RNN ~ O(n·d²) sekvenčně; Transformer self-attention ~ O(n²·d) (paměť i výpočet).
  • Paralelizace: Transformers a CNN dobře škálují datově i modelově; RNN jsou sekvenční (pomalý trénink, rychlá streamová inference).
  • Energetika: pozornost dominuje paměťovým přístupům; efektivní implementace (kvantizace, sparsity) jsou klíčové pro náklady.

Regularizace a stabilita tréninku

  • CNN: data augmentace (flip, crop, color jitter), mixup/cutmix; BatchNorm jako implicitní regularizér.
  • RNN: gradient clipping, variational dropout, orthogonal initialization; pečlivé nastavení LSTM/GRU.
  • Transformers: dropout/attention dropout, label smoothing, weight decay (AdamW), warmup, stabilní LN (RMSNorm), správná škála inicializace a FP16/BF16 s APEX/ZeRO.

Škálování modelů a emergentní chování

Zvětšování dat, parametrů a výpočetního rozpočtu typicky následuje škálovací zákony se sublineárními zisky. U Transformerů se objevují emergentní schopnosti (kompozice, instrukční následování) po překročení jistých prahů. Pro CNN se škáluje rozlišení, hloubka a šířka; u RNN spíše délka skrytého stavu a počet vrstev.

Parametrová efektivita a adaptace

  • Transfer learning: předtrénované encodery (CNN/ViT/BERT) s fine-tuningem.
  • Adaptery/LoRA: nízkorozměrné aktualizace vah (low-rank) umožňují levný task-specific tuning Transformerů.
  • Pruning a distilace: zmenšení modelů (structured/unstructured) a převod znalostí do menších sítí.
  • Kvantizace: INT8/INT4 pro inference na CPU/edge; pozor na přesnost u pozornosti a normalizací.

Více-modalitní a hybridní architektury

  • CNN + Transformer: konvoluční stem pro lokální textury + globální self-attention pro dlouhý dosah.
  • RNN + Attention: klasický seq2seq; u ASR/MT stále relevantní, pokud je klíčová kauzalita a latence.
  • CLIP-like a Perceiver-IO: jednotná pozornost napříč modality s latenty pevné velikosti.

Interpretovatelnost a vysvětlitelnost

  • CNN: saliency/Grad-CAM, vizualizace filtrů a aktivací.
  • RNN: analýza skrytých stavů a brán, influence funkcí; obtížnější globální interpretace.
  • Transformers: attention mapy, attribution metody, „mechanistic interpretability“ u hlav a MLP neuronů; pozor na mylný výklad intenzity pozornosti jako kauzality.

Nasazení a provoz (MLOps)

  • Pipeline: datová hygiena, verze datasetů, reprodukovatelnost (seed, determinismus), CI/CD pro modely.
  • Monitoring: drift dat a výkonu, out-of-distribution detekce, bezpečnostní aktualizace závislostí.
  • Serving: batching/streaming, A/B testy, canary release; pro Transformers cache klíčů/hodnot (KV-cache) pro urychlení autoregrese.

Bezpečnost a etika

  • Robustnost: útoky na vstupy (adversarial), otrava dat (data poisoning), prompt injekce u LLM; obrana datovou i modelovou cestou.
  • Soukromí: diferencované soukromí, federované učení, šifrování během tréninku/inference (HE/MPC – dopad na výkon).
  • Bias a spravedlnost: audit tréninkových dat, metriky fairness, lidská kontrola výstupů.

Praktický rozhodovací strom (zjednodušení)

  • Máte obrazy a málo dat/HW? Začněte CNN + transfer learning; pro velká data a pre-training zvažte ViT/hybrid.
  • Potřebujete nízkou latenci na streamu? RNN/Temporal CNN; pokud dlouhý kontext a vyšší HW, efektivní Transformers.
  • Text, kód, multimodální generace? Transformers (encoder/decoder dle úkolu), s PEFT (LoRA) pro adaptaci.

Case-study nástřely

  • Průmyslová vizuální inspekce: EfficientNet/UNet → real-time inference na edge, kvantizace INT8.
  • Predikce poptávky: GRU se statickými featurami + attention; fallback na Transformer Encoder pro dlouhé závislosti.
  • Strojový překlad: encoder–decoder Transformer, sdílený tokenizer, dlouhé sekvence s efektivní pozorností.

Nejčastější úskalí a jak se jim vyhnout

  • Nedostatečný regularizační rozpočet: přeučení; využijte data augmentace, dropout, early stopping, mixup.
  • Špatná škála učení a warmup: u Transformerů vede k divergnímu tréninku; používejte warmup a AdamW.
  • Nekompatibilní normalizace: BatchNorm v malých batchech (CNN) → zvažte Group/LayerNorm.
  • Podcenění nákladů na sekvenční délku: u Transformerů roste paměť kvadraticky – řešte truncation, windowing, efektivní attention, přesuny do FP8/bfloat16.

Závěr

CNN, RNN a Transformery nejsou vzájemně zaměnitelné – každá rodina architektur přináší jiný soubor induktivních bias, výpočetních kompromisů a provozních nároků. CNN excelují na obrazech a gridových datech s menším počtem vzorků, RNN dominují v kauzálních streamech s nízkou latencí a Transformery jsou univerzálním standardem pro dlouhé kontexty a generativní úlohy. Úspěch v praxi vychází z realistického odhadu zdrojů, vhodné předvolby architektury, důsledné optimalizace (regularizace, škálování, PEFT) a robustního MLOps. V mnoha aplikacích vítězí hybridní přístup, který kombinuje silné stránky jednotlivých paradigmů.

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *