lang icon English
Nov. 26, 2024, 9:17 a.m.
2270

Nvidias Fugatto: Revolusjonerer Generativ AI for Lyd

Brief news summary

Nvidias Fugatto er en banebrytende lydsynteseteknologi som omdanner tekstinstruksjoner til lyder, selv om den fortsatt ikke er tilgjengelig for allmennheten. En demo viser dens imponerende evne til å legge til effekter som undervannstale og korlignende sirener. En stor utfordring i utviklingen av Fugatto var å konstruere et datasett som fanger komplekse lydspråkinteraksjoner. Nvidia løste dette ved å bruke en språkmodell til å lage manus for ulike lydpersoner, noe som resulterte i et 50 000-timers datasett som var essensielt for å trene modellen, som har 2,5 milliarder parametere. En nøkkelfunksjon i Fugatto er "ComposableART," som gjør det mulig for brukere å blande egenskaper fra treningsdataene for presis kontroll over lydaspekter som aksenter og følelser. Denne funksjonaliteten tillater justeringer i taleemosjoner og separering av vokalspor i musikk, og tilbyr kreative muligheter utover grunnleggende syntese. Nvidia ser for seg Fugatto som et verktøy for å forbedre lydkreativitet innen områder som musikkprototyping og dynamisk spillmusikk, med mål om å supplere tradisjonelle metoder snarere enn å erstatte dem. Selskapet tror at AI-verktøy som Fugatto kan ha en dyp innvirkning på det fremtidige landskapet for musikalsk kreativitet.

Nvidias nye "Fugatto"-modell forbedrer generativ AI ved å transformere musikk, stemmer og lyder, og til og med skape tidligere uhørte lyder. Eksempler på nettsiden, selv om de ennå ikke er offentlig tilgjengelige, viser modellens evne til å endre lydtrekk, fra saksofoner som høres ut som bjeffing, til undervannstale eller kor av ambulanse-sirener. Denne brede kapasiteten har fått Nvidia til å beskrive Fugatto som en "sveitserkniv for lyd. " Utfordringen ligger i å lage et treningsdatasett som fremhever meningsfulle sammenhenger mellom lyd og språk. Nvidias forskere skapte, ved hjelp av et LLM-generert Python-skript, mange malbaserte og friforminstruksjoner for å beskrive lyd "personas. " Disse ble brukt på et bredt spekter av åpne lydsett, annotert med naturlige språksbeskrivelser kvantifisert etter følelse, kjønn og talekvalitet. Forskerne holdt visse faktorer konstant mens de varierte andre for å lære modellen distinksjoner som gladere tale eller forskjellige instrumentlyder. Etter å ha behandlet 20 millioner prøver (50 000 timer med lyd), brukte de Nvidias tensor-kjerner for å utvikle en modell med 2, 5 milliarder parametere, som viste pålitelig lydkvalitet. Utover trening lar Fugattos "ComposableART"-system brukerne tilpasse lydutgang. Det kombinerer trekk fra datasettet sitt for å lage nye, uhørte lyder, ved å bruke "betinget veiledning" for usette kombinasjoner.

Selv om ikke alle utganger er helt perfekte, viser lydvariasjonen Fugattos transformative evne, som for eksempel en fiolin som høres ut som en latterfull baby. Avgjørende behandler Fugatto lydtrekk som justerbare kontinuer, ikke binærverdier. Den kombinerer lyder, som en akustisk gitar med rennende vann, ved å endre balansen, og justerer aksenter eller følelser i tale. Den utfører oppgaver som å endre følelsen i talte tekster, isolere vokalspor og erstatte noter i MIDI-musikk med varierte vokalprestasjoner. Nvidia ser Fugatto som et skritt mot usupervisert multitasklæring og ser for seg anvendelser i sangprototyping og dynamiske dataspilllydspor. Slike modeller er ment som verktøy for lydkunstnere heller enn erstatninger. Som produsent/låtskriver Ido Zmishlany påpeker, former teknologi kontinuerlig musikken, med AI som markerer et nytt kapittel i musikalsk innovasjon.


Watch video about

Nvidias Fugatto: Revolusjonerer Generativ AI for Lyd

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Nov. 6, 2025, 1:35 p.m.

IBMs Watson Health AI diagnostiserer kreft med hø…

IBM sin Watson Health AI har oppnådd en viktig milepæl innen medisinsk diagnostikk ved å nå en nøyaktighetsrate på 95 prosent i identifiseringen av ulike krefttyper, inkludert lunge-, bryst-, prostata- og tykktarmskreft.

Nov. 6, 2025, 1:23 p.m.

Revolusjon eller "røykteppe for overlevelse"? Mar…

Tidligere denne uken spurte vi ledende markedsførere om AI:s påvirkning på markedsføringsjobber, og fikk en rekke gjennomtenkte svar.

Nov. 6, 2025, 1:21 p.m.

Vista Social introduserer ChatGPT-teknologi, og b…

Vista Social har gjort et bemerkelsesverdig gjennombrudd innen sosiale medier-håndtering ved å integrere ChatGPT-teknologi i Plattformen sin, og blir dermed det første verktøyet som har innebygd OpenAI sin avanserte samtale-AI.

Nov. 6, 2025, 1:21 p.m.

CommanderAI: 5 millioner dollar i oppstartsinvest…

CommanderAI har sikret 5 millioner dollar i en oppstartsrunde for å utvide sin AI-drevne salgsintelligensplattform, skreddersydd spesielt for avfallsbransjen.

Nov. 6, 2025, 1:20 p.m.

AI nyhetsinnslag video [Melobytes.com]

Melobytes.com har lansert en innovativ tjeneste som forvandler skapelsen av nyhetsvideoer ved å utnytte kunstig intelligens.

Nov. 6, 2025, 1:18 p.m.

GEO-plattformen stenges ned, noe som utløser bran…

Benjamin Houy har lagt ned Lorelight, en generativ engine-optimiseringsplattform (GEO) som var ment å overvåke merkevaresynlighet på tvers av ChatGPT, Claude og Perplexity, etter å ha konkludert med at de fleste merker ikke trenger et spesialisert verktøy for AI-søk-synlighet.

Nov. 6, 2025, 9:20 a.m.

AI-salg kan øke med 600 % innen 2028: 2 geniale A…

Viktige punkter oppsummert Morgan Stanley-analytikere spår at salget av kunstig intelligens (AI) innen sky- og programvaresektorene vil øke med over 600 % de neste tre årene, og overstige 1 billion dollar årlig innen 2028

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today