lang icon En
Nov. 26, 2024, 9:17 a.m.
3163

Nvidijina Fugatto: Revolucionarizira generativnu umjetnu inteligenciju za zvuk

Brief news summary

Nvidia-in Fugatto je napredna tehnologija za sintezu zvuka koja pretvara tekstualne upite u zvukove, iako još uvijek nije dostupna javnosti. Demo prikazuje impresivnu sposobnost dodavanja efekata poput govora pod vodom i sirena nalik horu. Jedan od glavnih izazova u razvoju Fugatta bio je kreiranje seta podataka koji hvata složene interakcije između zvuka i jezika. Nvidia je to riješila koristeći jezički model za stvaranje skripti za razne audio persona, rezultirajući setom podataka od 50.000 sati koji je ključan za treniranje modela koji ima 2,5 milijarde parametara. Ključna karakteristika Fugatta je "ComposableART", koja korisnicima omogućava kombiniranje karakteristika iz podataka za treniranje radi precizne kontrole nad audio aspektima kao što su akcenti i emocije. Ova sposobnost omogućava prilagodbe emocija u govoru i razdvajanje vokalnih traka u muzici, nudeći kreativne mogućnosti izvan osnovne sinteze. Nvidia predviđa da će Fugatto biti alat za unapređenje audio kreativnosti u oblastima kao što su prototipiranje muzike i dinamičko bodovanje igara, ciljajući da nadopuni tradicionalne metode, a ne da ih zamijeni. Kompanija vjeruje da bi AI alati poput Fugatta mogli duboko uticati na buduću scenu muzičke kreativnosti.

Nvidijin novi model "Fugatto" unapređuje generativnu umjetnu inteligenciju transformisanjem muzike, glasova i zvukova, pa čak i kreiranjem ranije nečuvenih zvukova. Još uvijek nije javno dostupan, ali primjeri na web stranici pokazuju njegovu sposobnost da mijenja audio karakteristike, od saksofona koji zvuči kao lajanje do govora pod vodom ili horova sirena hitne pomoći. Ova široka sposobnost dovela je Nvidiju da opiše Fugatto kao "švicarski nož za zvuk. " Izazov leži u kreiranju skupa podataka za obuku koji ističe značajne odnose između zvuka i jezika. Istraživači Nvidije, koristeći Python skriptu generisanu velikim jezičkim modelima, kreirali su brojne instrukcije temeljene na šablonima i slobodnoj formi kako bi opisali audio "perzone. " Ove su primijenjene na široku paletu izvora sa otvorenim kodom, opisujući ih prirodnim jezikom u smislu emocija, spola i kvaliteta govora. Istraživači su držali određene faktore konstantnima dok su mijenjali druge da bi model naučio razlike poput srećnijeg govora ili različitih zvukova instrumenata. Nakon obrade 20 miliona uzoraka (50. 000 sati zvuka), koristili su Nvidia tenzorske jezgre da razviju model sa 2, 5 milijarde parametara, prikazujući pouzdane ocjene kvaliteta zvuka. Pored obuke, Fugattov sistem "ComposableART" omogućava prilagodljivi audio izlaz. Kombinuje osobine iz svog skupa podataka kako bi kreirao nove, nečuvene zvukove, koristeći "uslovno vođenje" za neviđene kombinacije.

Iako nisu svi izlazi savršeno skladni, raznovrsnost zvukova, kao što je violina koja zvuči kao smijuća beba, demonstrira Fugattovu transformativnu sposobnost. Ključna stvar, Fugatto tretira audio karakteristike kao podesive kontinuume, a ne kao binarne. Kombinuje zvuke, kao što je akustična gitara sa tekućom vodom, promjenom balansa, i prilagođava naglaske ili emocije u govoru. Obavlja zadatke kao što je promjena emocije u izgovorenom tekstu, izolacija vokalnih traka i zamjena nota u MIDI muzici sa različitim vokalnim izvedbama. Nvidia vidi Fugatto kao korak ka nesuperviziranom učenju više zadataka i zamišlja primjene u prototipiranju pjesama i dinamičnim muzičkim podlogama za video igre. Takvi modeli su zamišljeni kao alati za audio umjetnike, a ne kao zamjene. Kako producent/tekstopisac Ido Zmishlany navodi, tehnologija konstantno preoblikuje muziku, a AI označava novo poglavlje u muzičkoj inovaciji.


Watch video about

Nvidijina Fugatto: Revolucionarizira generativnu umjetnu inteligenciju za zvuk

Try our premium solution and start getting clients — at no cost to you

Content creator image

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

March 23, 2026, 6:36 a.m.

AI I VIJESTI

Integracija umjetne inteligencije (UI) u medijsku industriju brzo preoblikuje pejzaž distribucije vijesti i provjere činjenica.

March 23, 2026, 6:30 a.m.

Tehnike kompresije videa pomoću umjetne inteligen…

Nedavni napredak u umjetnoj inteligenciji (UI) doveo je do stvaranja inovativnih tehnika kompresije videa koje transformišu streaming putem interneta.

March 23, 2026, 6:18 a.m.

Evertune AI: Pionirski generativni optimizator mo…

Evertune AI, sa sjedištem u New York Cityju, mijenja način na koji brendovi upravljaju svojom prisutnošću u rezultatima pretraživanja koje generira AI.

March 23, 2026, 6:13 a.m.

AI agenti preoblikuju prodaju tempom koji raste

Agenti umjetne inteligencije (AI) sve više transformiraju moderne procese prodaje, revolucionirajući način na koji poslovni subjekti komuniciraju s kupcima i upravljaju svojim prodajnim operacijama.

March 23, 2026, 6:12 a.m.

Kompanije rade više sa manje u eri umjetne inteli…

Era umjetne inteligencije značajno mijenja radnu snagu.

March 22, 2026, 2:21 p.m.

Učenje kada odustati u prodajnim razgovorima

Stručnjaci za prodaju često se suočavaju s teškom dilemom tokom poziva prodaje naivštinskim klijentima: da li da nastave s angažmanom potencijalnog klijenta ili da prekinu razgovor kako bi se fokusirali na drugu potencijalnu priliku.

March 22, 2026, 2:18 p.m.

Tehnike umjetne inteligencije revolucioniraju dig…

U današnjem brzo mijenjajućem okruženju maloprodaje, veštačka inteligencija (VI) postala je ključna snaga koja utiče na angažman potrošača i njihove odluke o kupovini.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

AI Company welcome image

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today