Hluboké modely pohánějí vidění i řeč: od detekce po ASR. Self-supervised učení redukuje nároky na anotace.