MIT razvija AI za imitiranja ljudskog glasa.
Brief news summary
Istraživači sa CSAIL-a pri MIT-u razvili su napredan AI sistem koji može uvjerljivo oponašati ljudske glasovne i okolinske zvukove modelirajući ljudski glavni trakt. Ovaj AI, inspirisan kognitivnom naukom, može replicirati razne zvukove poput šuštanja lišća i sirena te prepoznati zvuke iz stvarnog svijeta svojim mimetičkim sposobnostima. Inovacija obećava "interfejse zasnovane na imitaciji" za dizajnere zvuka i može poboljšati realističnost AI likova u virtualnoj stvarnosti. Tokom testova, sudije su preferirale imitacije AI-a u 25% slučajeva, posebno njegovu izvedbu zvukova motornih čamaca. Pod vodstvom doktoranada Kartika Chandre i Karime Ma, zajedno sa studentom preddiplomskog studija Matthewom Carenom, istraživački tim je kreirao tri verzije AI-a. Finalna verzija poboljšava imitaciju zvuka primjenom rezonovanja i konteksta, prilagođavajući brzinu i jačinu zvuka za apstraktne audijske skice. Iako se suočava s poteškoćama kod nekih suglasničkih zvukova, AI ima brojne potencijalne primjene. Filmski stvaraoci i muzičari mogli bi iskoristiti te sposobnosti, dok bi mogao također pružiti uvid u razvoj jezika i analizu ptičjih pjesama. Ovo istraživanje nudi vrijedne perspektive o evoluciji jezika i onomatopeji, ističući važnost fiziologije, socijalnog rezonovanja i komunikacije u vokalnoj imitaciji. Finansirano od strane Hertz fondacije i NSF-a, studija unapređuje razumijevanje audijske apstrakcije i izraza.Sposobnost da oponašamo zvukove svojim glasom, poput neispravnog motora automobila ili mačkinog mijaukanja, može biti učinkovit način za prenošenje koncepata kada riječi nisu dovoljne. Ovo vokalno oponašanje je slično brzom crtanju skice kako bi se prenijela ideja. Inspirisani kognitivnom naukom, istraživači MIT-ovog CSAIL-a razvili su AI sistem koji može stvarati ljudske vokalne imitacije bez prethodnog treninga ili izloženosti ljudskim vokalnim utiscima. Istraživači su konstruisali model ljudskog vokalnog trakta, simulirajući kako grlo, jezik i usne oblikuju zvuke iz glasovnog okvira. Kognitivno inspirisan AI algoritam kontroliše ovaj model kako bi proizvodio imitacije, uzimajući u obzir kako ljudi biraju komunicirati zvukove. Model može oponašati razne zvukove, poput šuštanja lišća, siktanja zmije i sirene ambulante. Također može obrnuti proces, pogađajući stvarne zvukove iz ljudskih vokalnih imitacija, slično preuzimanju slika iz skica. Na primjer, može razlikovati ljudsko-imitirani mačji "mijau" od "siktanja". Istraživanje sugeriše potencijalne primjene modela, kao što su interfejsi zasnovani na imitaciji za dizajnere zvuka, poboljšanje AI likova u virtualnoj stvarnosti i pomoć učenicima jezika.
Glavni autori sa MIT CSAIL ističu da, kao u vizualnom izražavanju, realizam nije uvijek krajnji cilj u zvučnoj imitaciji. Njihov rad nudi uvide u audiornu apstrakciju. Kako bi usavršili svoj model, tim je razvio tri verzije, počinjući sa osnovnim modelom koji je ciljao na realističnu zvučnu imitaciju ali nije dobro odgovarao ljudskom ponašanju. Zatim su stvorili "komunikativni" model fokusiran na prepoznatljive karakteristike zvuka, što je poboljšalo rezultate. Na kraju su dodali nijanse uzimajući u obzir trud koji ljudi ulažu u imitaciju, što je dovelo do rezultata sličnijih ljudskim. U eksperimentu sa ljudskim sudijama, ponekad su preferirali AI-generisane vokalne imitacije nad ljudskim za specifične zvukove. Istraživači namjeravaju primijeniti svoj model u raznim oblastima, uključujući razvoj jezika, učenje govora kod dojenčadi i ponašanja ptičjeg oponašanja. Iako model još uvijek ima izazove, poput tačnog oponašanja nekih suglasnika ili razlika u zvukovima među jezicima, nudi obećavajući korak ka dubljem razumijevanju uloge vokalne imitacije u komunikaciji i evoluciji jezika. Rad naglašava međusobnu povezanost fizioloških, socijalnih i komunikativnih faktora, s implikacijama za buduće tehnologije u muzici, umjetnosti i drugim oblastima.
Watch video about
MIT razvija AI za imitiranja ljudskog glasa.
Try our premium solution and start getting clients — at no cost to you