Nvidijina Fugatto: Revolucionarizira generativnu umjetnu inteligenciju za zvuk
Brief news summary
Nvidia-in Fugatto je napredna tehnologija za sintezu zvuka koja pretvara tekstualne upite u zvukove, iako još uvijek nije dostupna javnosti. Demo prikazuje impresivnu sposobnost dodavanja efekata poput govora pod vodom i sirena nalik horu. Jedan od glavnih izazova u razvoju Fugatta bio je kreiranje seta podataka koji hvata složene interakcije između zvuka i jezika. Nvidia je to riješila koristeći jezički model za stvaranje skripti za razne audio persona, rezultirajući setom podataka od 50.000 sati koji je ključan za treniranje modela koji ima 2,5 milijarde parametara. Ključna karakteristika Fugatta je "ComposableART", koja korisnicima omogućava kombiniranje karakteristika iz podataka za treniranje radi precizne kontrole nad audio aspektima kao što su akcenti i emocije. Ova sposobnost omogućava prilagodbe emocija u govoru i razdvajanje vokalnih traka u muzici, nudeći kreativne mogućnosti izvan osnovne sinteze. Nvidia predviđa da će Fugatto biti alat za unapređenje audio kreativnosti u oblastima kao što su prototipiranje muzike i dinamičko bodovanje igara, ciljajući da nadopuni tradicionalne metode, a ne da ih zamijeni. Kompanija vjeruje da bi AI alati poput Fugatta mogli duboko uticati na buduću scenu muzičke kreativnosti.Nvidijin novi model "Fugatto" unapređuje generativnu umjetnu inteligenciju transformisanjem muzike, glasova i zvukova, pa čak i kreiranjem ranije nečuvenih zvukova. Još uvijek nije javno dostupan, ali primjeri na web stranici pokazuju njegovu sposobnost da mijenja audio karakteristike, od saksofona koji zvuči kao lajanje do govora pod vodom ili horova sirena hitne pomoći. Ova široka sposobnost dovela je Nvidiju da opiše Fugatto kao "švicarski nož za zvuk. " Izazov leži u kreiranju skupa podataka za obuku koji ističe značajne odnose između zvuka i jezika. Istraživači Nvidije, koristeći Python skriptu generisanu velikim jezičkim modelima, kreirali su brojne instrukcije temeljene na šablonima i slobodnoj formi kako bi opisali audio "perzone. " Ove su primijenjene na široku paletu izvora sa otvorenim kodom, opisujući ih prirodnim jezikom u smislu emocija, spola i kvaliteta govora. Istraživači su držali određene faktore konstantnima dok su mijenjali druge da bi model naučio razlike poput srećnijeg govora ili različitih zvukova instrumenata. Nakon obrade 20 miliona uzoraka (50. 000 sati zvuka), koristili su Nvidia tenzorske jezgre da razviju model sa 2, 5 milijarde parametara, prikazujući pouzdane ocjene kvaliteta zvuka. Pored obuke, Fugattov sistem "ComposableART" omogućava prilagodljivi audio izlaz. Kombinuje osobine iz svog skupa podataka kako bi kreirao nove, nečuvene zvukove, koristeći "uslovno vođenje" za neviđene kombinacije.
Iako nisu svi izlazi savršeno skladni, raznovrsnost zvukova, kao što je violina koja zvuči kao smijuća beba, demonstrira Fugattovu transformativnu sposobnost. Ključna stvar, Fugatto tretira audio karakteristike kao podesive kontinuume, a ne kao binarne. Kombinuje zvuke, kao što je akustična gitara sa tekućom vodom, promjenom balansa, i prilagođava naglaske ili emocije u govoru. Obavlja zadatke kao što je promjena emocije u izgovorenom tekstu, izolacija vokalnih traka i zamjena nota u MIDI muzici sa različitim vokalnim izvedbama. Nvidia vidi Fugatto kao korak ka nesuperviziranom učenju više zadataka i zamišlja primjene u prototipiranju pjesama i dinamičnim muzičkim podlogama za video igre. Takvi modeli su zamišljeni kao alati za audio umjetnike, a ne kao zamjene. Kako producent/tekstopisac Ido Zmishlany navodi, tehnologija konstantno preoblikuje muziku, a AI označava novo poglavlje u muzičkoj inovaciji.
Watch video about
Nvidijina Fugatto: Revolucionarizira generativnu umjetnu inteligenciju za zvuk
Try our premium solution and start getting clients — at no cost to you