Prečo „sim-to-real” rozhoduje o autonómii dronov
Tréning a testovanie autonómnych algoritmov priamo v teréne je drahé, rizikové a málo škálovateľné. Simulácia (sim) ponúka bezpečné pieskovisko s kontrolovanými podmienkami a masívnym paralelizmom. Rozpor medzi simuláciou a realitou (sim-to-real gap) však často vedie k degradácii výkonu po nasadení v skutočnom svete (reality gap). Tento článok systematizuje prístupy k premosteniu medzery pomocou doménovej randomizácie, transfer learningu, adaptívnej identifikácie, ako aj integračných postupov pre autonómiu dronov – od vnímania cez lokalizáciu po plánovanie a riadenie, vrátane rojových scenárov.
Architektonický kontext: vrstvy autonómie a kde vzniká „gap”
- Vnímanie (perception): detekcia/prieskum scény (RGB, hlbka, LiDAR, event-kamery), semantika, sledovanie objektov. Gap plynie z nepresnej fotometriky, textúr, šumu a rušenia svetla.
- Odhad stavu (state estimation): VIO/SLAM, fúzia IMU/GNSS/vision. Gap tvoria rozdielne spektrá vibrácií, nelinearity senzorov a oneskorenia.
- Plánovanie a vyhýbanie: reaktívne kolízne vyhýbanie, globálne plánovače, MPC. Gap vzniká v dynamike prostredia (vietor, pohyblivé prekážky) a v obmedzeniach aktuátorov.
- Riadenie: nízkoúrovňové slučky (attitude/rate/thrust) a vysoká vrstva (trajektórie). Gap spôsobujú nelineárne efekty (downwash, ground effect), saturácie a oneskorenia ESC/motorov.
Doménová randomizácia: princíp, ciele a dizajn rozdelení
Doménová randomizácia (Domain Randomization, DR) zámerne variuje parametre simulácie počas tréningu tak, aby modely videli široké spektrum možných svetov. Cieľom je, aby sieť/algoritmus naučil invariancie a robustné reprezentácie.
- Fotometria: náhodné zdroje svetla, spektrum, intenzita, tieňovanie, odlesky, haze, meteorológia; textúry a materiály s variabilnými BRDF.
- Senzory: šum IMU (bias drift, random walk), rolling shutter, kvantizácia, latencia; LiDAR s dropoutmi a viacnásobnými odrazmi; kamery s aberáciami a znečistením šošovky.
- Dynamika „plant”: hmotnosť, momenty zotrvačnosti, thrust mapy, oneskorenie motorov, aerodynamické koeficienty, vietor (nárazy, turbulence, shear), ground effect.
- Prostredie a geometriá: rozmiestnenie prekážok, pohyb aktérov, topológia koridorov, GPS tieňovanie, RF rušenie.
- Komunikačné podmienky: jitter, packet loss, oneskorenie v roji (C2 a V2V), obmedzenia šírky pásma.
Pravidlo návrhu rozdelení: randomizujte široko, ale fyzikálne realisticky. Používajte truncated alebo mixture rozdelenia (napr. lognormál pre šum, beta pre osvetlenie) s priorom z meraní. Pre kritické parametre uplatnite curriculum – zvyšujte rozptyl postupne.
Transfer learning: od simulácie k realite krok za krokom
Transfer learning prenáša znalosti naučené v zdrojovej doméne (sim) do cieľovej (real). Kľúčové stratégie:
- Feature transfer: použitie encodera načvičeného v simulácii a fine-tune na reálnych anotovaných dátach (menej ich treba).
- Domain adaptation: adversarial zarovnávanie distribúcií (sim vs. real) v latentnom priestore; coral/mmd regularizácie.
- Self-supervised pretraining: kontrastné úlohy (temporal a multi-view) zo simulácie, doladenie na malom reálnom sete.
- Policy distillation: prenesenie politiky RL z fotorealistickej/DR simulácie do menšej siete bežiacej na edge (MCU/SoC) s kvantizáciou.
Fotorealizmus vs. randomizácia: komplementárny pohľad
Fotorealistická simulácia znižuje rozdiel vo vnímaní, no býva nákladná a menej rozmanitá. DR naopak zväčšuje pokrytie distribúcií, ale môže viesť k „nadmieru robustným” reprezentáciám, ktoré strácajú jemné detaily. V praxi:
- Trénujte perception na fotorealistických scénach s ľahkou DR fotometrie.
- Trénujte riadenie/RL s výraznou DR dynamiky a senzoriky.
- Použite two-stage prístup: najprv DR, potom narrow-domain fine-tune na reálnych logoch.
Identifikácia parametrov a „plant-model mismatch”
Presný model dynamiky znižuje potrebu extrémnej DR. Odporúčaný cyklus:
- Bezpečné letové experimenty s excitačnými manévrami (chirp, step, PRBS).
- Odhad thrust/torque máp, časových konštánt ESC/motorov, aerodynamických koeficientov.
- Kalibrácia modelu a Bayesovské intervaly neistoty, ktoré sa premenia na rozsahy DR.
Sim-to-real pre učenie s posilňovaním (RL)
- Privileged learning: počas tréningu v simulácii má agent prístup k „dokonalému” stavu; pri nasadení používa len odhad cez senzory. Teacher-student schéma redukuje realitnú medzeru.
- Domain randomization v prostredí: dynamika, oneskorenia, poruchy aktútorov; curriculum podľa miery úspechu agenta.
- Risk-sensitive RL: minimalizácia CVaR alebo penalizácia „tail” udalostí pre bezpečnosť; významné najmä pri blízkosti prekážok.
- Safe exploration: barrier functions, shielding nad RL politikou (napr. CBF/ECBF), ktoré garantujú neprekročenie obmedzení.
Imitačné učenie a DAgger v praxi dronov
Imitačné učenie využíva expertné trajektórie z človeka alebo MPC. Keďže distribučný posun vedie k kumulácii chýb, odporúča sa DAgger (agregácia dát s korekciami experta) aj v simulácii s DR a následné doladenie na reálnych korekciách (on-policy fine-tune s nízkym rizikom).
Vizualizácia a augmentácie: od obrazov k robustným reprezentáciám
- Spektrálne a fotometrické augmentácie: náhodné expozície, spektrálne posuny, šum, defocus, motion blur, lens dirt.
- Geometrické augmentácie: náhodné kropovanie, rotácia, perspektívny „tilt”, simulácia rolling-shutter.
- Sim2Real style transfer: Cycle-consistent premapovanie textúr zo sim do real a naopak, bez straty geometrie – vhodné pre vnímanie.
Časovanie a latencie: end-to-end limit autonómie
Aj pri dokonalom vnímaní sa výkon zhorší, ak je latencia a jitter v slučke podcenený. Pri sim-to-real je nutné:
- Modelovať senzor→odhad→riadenie→aktuátor reťazec s realistickými oneskoreniami a periodicitou.
- Trénovať politiky tolerantné k jitteru (randomizácia periódy, delay-aware MPC/RL).
- V HIL overovať deadline miss rate a robustnosť na CPU load.
Metriky a orákulá: ako merať pripravenosť na realitu
- Robustnostné krivky: výkon vs. variácia parametra (vietor, oneskorenie, šum); cieľom je plochý profil.
- Distributional coverage: percento cieľovej prevádzky pokryté trénovacími rozdeleniami (odhady z logov reálnych misií).
- Safety KPI: počet „near miss”, minimálne clearance k prekážkam, zásahy safety-shieldu, porušenia obmedzení.
- Generalizačné testy: nevidené scény/počasia; holdout miesta, ktoré simulátor neobsahoval.
Pipeline: od simulácie k terénu
- Data mining z reálnych logov (vietor, vibrácie, latencie) → štatistiky pre návrh DR rozdelení.
- SIL tréning s DR a fotorealistickou scénou pre perception; RL/IL pre navigáciu a vyhýbanie.
- HIL validačný filter: časovanie, jitter, rozhrania; fault injection (dropouty senzorov, packet loss).
- Pilotné lety s envelope protection (geofencing, virtuálne steny, soft limit thrust).
- Iterácia: spätná identifikácia a aktualizácia rozdelení DR; fine-tune percepcie a politiky.
Sim-to-real pre roje: škálovanie neistoty a komunikácie
- Komunikácia: randomizujte latencie, stratovosť a obmedzenia priepustnosti; trénujte decentralizované politiky s obmedzenou informáciou.
- Koordinácia: používajte graph neural networks alebo explicitné formácie s consensus algoritmami robustnými voči výpadkom uzlov.
- Bezpečnosť: Reciprocal collision avoidance s verifikovanými barriérami; lokálne failsafe pri strate komunikácie.
Modely neurčitosti a verifikované „shields”
Pridajte odhady neistoty do vnímania a riadenia (napr. Monte Carlo dropout, ensemble) a rozhodovanie viažte na risk-aware MPC. Nad politikou nasadzujte formálne verifikované shiely (CBF/Reachability), ktoré garantujú bezpečnostné invarianty.
Kontinuálne učenie a on-device adaptácia
- Test-time adaptation: jemné doladenie BN štatistík alebo nízkodimenzionálnych hláv podľa prichádzajúcich reálnych dát.
- Meta-learning: inicializácie, ktoré sa rýchlo prispôsobia novej lokalite/počasiu pár krokmi gradientu.
- Edge constraints: kvantizácia, prerezávanie sietí, distilácia a plánovanie prúdov dát vzhľadom na energetický rozpočet.
Integrácia s klasickými metódami: hybridné riadenie
Čisté RL politiky nahrádzajte hybridom: sieť predpovedá referencie/parametre pre MPC alebo adaptívny regulátor. Hybrid lepšie rešpektuje obmedzenia a uľahčuje certifikáciu. Percepčné siete poskytujú mapy rizika a costmaps pre klasických plánovačov.
Údaje a anotácie: ako získať „málo, ale dobré” reálne dáta
- Active learning: iteratívne navrhujte misie, ktoré maximalizujú informáciu (miesta s vysokou neistotou modelu).
- Weak supervision: pravidlá/heuristiky a senzorové triády (napr. stereo+IMU) na generovanie pseudo-štítkov.
- Human-in-the-loop: rýchle anotácie na keyframoch; korekcie v DAgger slučke.
Bezpečnostné a regulačné aspekty
Preukázanie bezpečnosti vyžaduje traceability od požiadaviek po testy a metriky. Sim-to-real postupy musia byť auditovateľné: protokoly DR rozdelení, verzie simulátorov, semien RNG, logy z HIL a z reálnych letov, plus „go/no-go” kritériá pre rozšírenie prevádzky (VLOS → BVLOS, denné → nočné).
Prípadové vzory nasadenia
- Indoors inspekcia: silná DR osvetlenia a textúr; hybridné riadenie (MPC+policy); HIL testy s RF multipath a občasnou stratou vizuálnych prvkov.
- Lesný prieskum: DR vetra, pohyblivej vegetácie a slnečných škvrn; robustné VIO s event-kamerou; risk-sensitive plánovanie clearance.
- Rojové mapovanie: decentralizované politiky s DR komunikácie; GNN pre formácie; shiely pre minimálne rozostupy.
„Best practices” pre tím
- Udržujte binárnu ekvivalenciu algoritmov medzi SIL/HIL/real (rovnaké knižnice a flagy).
- Logujte všetko: časové pečiatky, jednotky, rámce, semená RNG, verzie simulátorov, parametre DR.
- Curriculum: od úzkych rozdelení k širokému spektru; „overfit to safety” – bezpečnosť priorita pri expanzii obálky.
- Test like you fly: scénáre, ktoré verne kopírujú prevádzku (rýchlosti, manévre, latencie, rušenie).
Budúce smery
- Sim-to-real s fyzikou učenou dátami (differentiable physics) a adaptívnou identifikáciou počas letu.
- Generatívne modely pre syntézu realistických senzorických scén s kontrolou variability.
- Formálne metriky distribučnej blízkosti medzi sim a real na úrovni reprezentácií.
- Ko-učenie rojov s garanciami stability pri meniacom sa grafe konektivity.
Úspešné sim-to-real nasadenie autonómie dronov vzniká ako kombinácia: (1) dôslednej identifikácie a modelovania „plant”, (2) premyslenej doménovej randomizácie založenej na reálnych dátach, (3) transfer learningu a adaptácie na okrajovom zariadení, (4) bezpečnostných štítov a formálnych obmedzení a (5) disciplinovaného HIL/SIL procesu. Takýto prístup mení simuláciu z nástroja na tréning na nástroj záruky, že autonómia obstojí aj mimo laboratória.