Nvidias nye "Fugatto"-modell forbedrer generativ AI ved å transformere musikk, stemmer og lyder, og til og med skape tidligere uhørte lyder. Eksempler på nettsiden, selv om de ennå ikke er offentlig tilgjengelige, viser modellens evne til å endre lydtrekk, fra saksofoner som høres ut som bjeffing, til undervannstale eller kor av ambulanse-sirener. Denne brede kapasiteten har fått Nvidia til å beskrive Fugatto som en "sveitserkniv for lyd. " Utfordringen ligger i å lage et treningsdatasett som fremhever meningsfulle sammenhenger mellom lyd og språk. Nvidias forskere skapte, ved hjelp av et LLM-generert Python-skript, mange malbaserte og friforminstruksjoner for å beskrive lyd "personas. " Disse ble brukt på et bredt spekter av åpne lydsett, annotert med naturlige språksbeskrivelser kvantifisert etter følelse, kjønn og talekvalitet. Forskerne holdt visse faktorer konstant mens de varierte andre for å lære modellen distinksjoner som gladere tale eller forskjellige instrumentlyder. Etter å ha behandlet 20 millioner prøver (50 000 timer med lyd), brukte de Nvidias tensor-kjerner for å utvikle en modell med 2, 5 milliarder parametere, som viste pålitelig lydkvalitet. Utover trening lar Fugattos "ComposableART"-system brukerne tilpasse lydutgang. Det kombinerer trekk fra datasettet sitt for å lage nye, uhørte lyder, ved å bruke "betinget veiledning" for usette kombinasjoner.
Selv om ikke alle utganger er helt perfekte, viser lydvariasjonen Fugattos transformative evne, som for eksempel en fiolin som høres ut som en latterfull baby. Avgjørende behandler Fugatto lydtrekk som justerbare kontinuer, ikke binærverdier. Den kombinerer lyder, som en akustisk gitar med rennende vann, ved å endre balansen, og justerer aksenter eller følelser i tale. Den utfører oppgaver som å endre følelsen i talte tekster, isolere vokalspor og erstatte noter i MIDI-musikk med varierte vokalprestasjoner. Nvidia ser Fugatto som et skritt mot usupervisert multitasklæring og ser for seg anvendelser i sangprototyping og dynamiske dataspilllydspor. Slike modeller er ment som verktøy for lydkunstnere heller enn erstatninger. Som produsent/låtskriver Ido Zmishlany påpeker, former teknologi kontinuerlig musikken, med AI som markerer et nytt kapittel i musikalsk innovasjon.
Nvidias Fugatto: Revolusjonerer Generativ AI for Lyd
IBM sin Watson Health AI har oppnådd en viktig milepæl innen medisinsk diagnostikk ved å nå en nøyaktighetsrate på 95 prosent i identifiseringen av ulike krefttyper, inkludert lunge-, bryst-, prostata- og tykktarmskreft.
Tidligere denne uken spurte vi ledende markedsførere om AI:s påvirkning på markedsføringsjobber, og fikk en rekke gjennomtenkte svar.
Vista Social har gjort et bemerkelsesverdig gjennombrudd innen sosiale medier-håndtering ved å integrere ChatGPT-teknologi i Plattformen sin, og blir dermed det første verktøyet som har innebygd OpenAI sin avanserte samtale-AI.
CommanderAI har sikret 5 millioner dollar i en oppstartsrunde for å utvide sin AI-drevne salgsintelligensplattform, skreddersydd spesielt for avfallsbransjen.
Melobytes.com har lansert en innovativ tjeneste som forvandler skapelsen av nyhetsvideoer ved å utnytte kunstig intelligens.
Benjamin Houy har lagt ned Lorelight, en generativ engine-optimiseringsplattform (GEO) som var ment å overvåke merkevaresynlighet på tvers av ChatGPT, Claude og Perplexity, etter å ha konkludert med at de fleste merker ikke trenger et spesialisert verktøy for AI-søk-synlighet.
Viktige punkter oppsummert Morgan Stanley-analytikere spår at salget av kunstig intelligens (AI) innen sky- og programvaresektorene vil øke med over 600 % de neste tre årene, og overstige 1 billion dollar årlig innen 2028
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today