NEBEZPEČNÉ: Najnovšiemu počítaču stačí minúta nahrávky aby vás realisticky napodobnil
24 | 10 | 2019 I Imrich Kovačič

Stačí jedna minúta záznamu a majú celý váš hlas.
Špeciálny počítačový program potom dokáže hovoriť ako vy.


Spoločnosť Lyrebird má nový program, ktorému stačí minúta nahrávky niečej reči, aby ju dokázal napodobniť. Využíva k tomu strojové učenie, založené na algorytme umelej inteligencie.

Napodobňovanie cudzích hlasov pomocou umelej inteligencie (ilustračné foto) | foto: montáž: Pavel Kasík - Technet.cz, Profimedia.cz

Služba Lyrebird odkáže z jednominútovej nahrávky vytvoriť "vzorku hlasu" akéhokoľvek človeka.

Počítačový program sa volá Lyrebird a môže definitívne zmeniť niektoré z istôt, ktoré sme na tomto svete doposiaľ mali. Nový algoritmus vyvinutý v laboratóriu MILA lab na kanadskej University of Montréal totiž môže priniesť vcelku zábavné momenty, ale v podstate môže spôsobiť aj veľa problémov. Podľa slov jeho tvorcov mu stačí len jedna minúta záznamu hlasu akéhokoľvek človeka k tomu, aby ho dokázal vierohodne napodobniť. Autori chcú svoj nápad dodávať ako vývojárske knižnice (API) ďalším vývojárom, ktorí tak budú môcť funkciu napodobňovania hlasu vložiť do najrôznejších aplikácií.

Ako z opisu systému vyplýva, nie je potrebné, aby si systém nahral konkrétne slová či vety, ktoré má služba Lyreird reprodukovať. Z minútového záznamu tak dokáže samotný počítačový program získať dostatok údajov potrebných na to, aby dokázal syntetizovať hlas obsiahnutý na zázname.

Progran Lyrebird (pomenovaný podľa austrálskeho operenca známeho schopnosťou napodobňovať zvuky zo svojho okolia) využíva strojové učenie, konkrétne tzv. "Hlboké neurónové siete", ktoré sa učia na vzorkách a potom zostavujú nové obsahy, v tomto prípade audio (viac o neurónových sieťach).

Lyrebird si poradí aj s rôznou intonáciou hlasu. Rovnakú vetu tak nikdy neprerečíta úplne rovnako, vždy znie trošičku inak. Výsledný program by mal navyše umožňovať manuálne nastaviť rôzne parametre týkajúce sa dikcie, intonácie, emócií atď., čo zvyšuje dôveryhodnosť imitované nahrávky.

Takýto silný počítačový nástroj je možné vynikajúco využiť, ale rovnako môže byť aj nebezpečne zneužitý. Každý si asi dokáže predstaviť, aké škody môže podobná aplikácia napáchať. Či už ide o súdne pojednávania, lákanie peňazí aj z inak obozretných užívateľov, obchádzanie hlasom aktivovaných zabezpečovacích systémov alebo proste len kompromitovanie nejakej osoby.

Tvorcovia síce majú na svojej stránke vyhlásenie o etike, ale to skôr vyznieva ako alibizmus všetkým kritikom. "Naša technológia vyvoláva dôležité spoločenské otázky. Zvukové nahrávky sú teraz považované za silný dôkaz. Mohlo by teda dôjsť k zneužitiu našej technológie napríklad k manipulácii, dehonestácii a ďalším problémom súvisiacim s krádežou hlasu niekoho iného. Tým, že našu technológiu predstavíme verejne, chceme predísť rizikám. Dúfame, že si všetci čoskoro uvedomia, že takáto technológia existuje a že je možné kopírovať hlas niekoho iného. Všeobecnejšie by sme ich chceli upozorniť na problematiku dôkazov, akými by v blízkej budúcnosti mohli byť zvukové nahrávky," píše firma.

Na podobné novinky si ale zrejme naozaj musíme zvykať. Firma nie je jediná, ktorá podobný systém vyvíja. Podobnú funkciu sľubuje systém VOCO, na ktorom pracuje Adobe. Ten na analýzu potrebuje asi dvadsať minút nahrávky respondenta. Keď zástupca Adobe ich systém na jednej konferencii prezentoval, nahovoril vetu a začal si s ňou rôzne hrať. Prehadzoval slová, cez klávesnicu pridal ďalšie a vždy nechal systém, aby novú vetu prečítal. A naozaj sa zdalo, že aj nové slová sú prednášané hlasom prezentujúceho.



O podobný systém sa určite pokúšajú aj ďalšie firmy. Pojem postfaktická doba tak možno čoskoro dostane ešte zlovestnejšie nádych. Na Stanfordskej univerzite v Kalifornii zasa vývojári pracujú na mapovaní pohybov z tváre na tvár v reálnom čase. V roku 2016 predstavili ukážku nástroja, ktorý dokáže generovať fotorealistické videá tvárí na základe zdrojových dát zachytených napríklad obyčajnú webkamerou.