lang icon English
Nov. 26, 2024, 9:17 a.m.
2298

Fugatto на Nvidia: Револуционирање на генеративната вештачка интелигенција за звук

Brief news summary

Fugatto од Nvidia е напредна технологија за аудио синтеза која го претвора текстот во звуци, иако сè уште не е јавно достапна. Демото го покажува нејзиниот импресивен капацитет да додава ефекти како говор под вода и хоровски сирени. Еден од големите предизвици при развојот на Fugatto беше создавањето на податочен сет кој ги доловува сложените интеракции меѓу аудиото и јазикот. Nvidia го реши ова користејќи јазичен модел за создавање на скрипти за различни аудио персони, што резултираше со податочен сет од 50.000 часови неопходен за тренинг на моделот, кој содржи 2,5 милијарди параметри. Клучна карактеристика на Fugatto е "ComposableART," која им овозможува на корисниците да мешаат карактеристики од податоците за тренинг за прецизна контрола врз аудио аспектите како акценти и емоции. Оваа способност овозможува прилагодувања во емоциите во говорот и одвојување на вокалните траки во музиката, нудејќи креативни можности надвор од основната синтеза. Nvidia предвидува Fugatto како алатка за зголемување на аудио креативноста во области како прототипирање на музика и динамично оценување за игри, со цел да се надополнат традиционалните методи наместо да ги заменат. Компанијата верува дека АИ алатки како Fugatto може да имаат значително влијание врз иднината на музичката креативност.

Новиот модел на Nvidia, "Fugatto", ја подобрува генеративната вештачка интелигенција со трансформирање на музика, гласови и звуци, дури и создавање на претходно нечуени звуци. Сè уште не е јавно достапен, но примерите на веб-страницата ја покажуваат неговата способност да ги менува аудио карактеристиките, од саксофони што звучат како лаење до подводен говор или хор од сирени на амбуланти. Оваа широка способност ја поттикна Nvidia да го опише Fugatto како "швајцарско ноже за звуци". Предизвикот лежи во создавање на тренинг множества на податоци кои ги истакнуваат значајните односи помеѓу аудио и јазик. Истражувачите на Nvidia, користејќи Python скрипта генерирана од голем јазичен модел (LLM), создадоа бројни инструкции засновани на шаблони и слободна форма за да опишат аудио "персони". Ова беше применето на широк спектар на аудио множества на податоци од отворен код, при што тие беа обележани со природнојазични описи кои беа квантитативни по емоција, пол и квалитет на говорот. Истражувачите одржуваа одредени фактори константни додека варираа други за да го научат моделот на разлики како посреќен говор или различни звуци на инструменти. По обработката на 20 милиони примероци (50. 000 часови аудио), тие ги искористија тензорните јадра на Nvidia за да развијат модел со 2, 5 милијарди параметри, кој покажа сигурни оценки за квалитет на аудиото. Освен во обуката, системот на Fugatto наречен "ComposableART" овозможува прилагодливи аудио излезни резултати.

Комбинира карактеристики од своето множество на податоци за да создаде нови, нечуени звуци, користејќи "условно насочување" за невидени комбинации. Иако не се сите излезни звуци совршено интонативни, разновидноста на звуците, како виолина што звучи како бебе што се смее, го покажува трансформативниот капацитет на Fugatto. Суштински, Fugatto ги третира аудио карактеристиките како подесива континууми, а не како бинарности. Комбинира звуци, како акустична гитара со трчање на вода, со менување на балансот, и ги прилагодува акцентите или емоциите во говорот. Изведува задачи како што се промена на емоцијата на изговорен текст, изолирање на вокалните песни и заменување на ноти во MIDI музика со различни вокални изведби. Nvidia го гледа Fugatto како чекор кон ненадгледувано мултитаск учење и гледа примени во прототипирање песни и динамични музички резултати за видео игри. Ваквите модели се наменети како алатки за аудио артисти, а не како замени. Како што вели продуцент/композитор Идо Змишлани, технологијата постојано ја обликува музиката, а вештачката интелигенција означува ново поглавје во музичката иновација.


Watch video about

Fugatto на Nvidia: Револуционирање на генеративната вештачка интелигенција за звук

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Nov. 11, 2025, 1:23 p.m.

Граѓански граѓанин бара OpenAI да ја повлече апли…

Јавното граѓанско здружение, воспоставен евидентен чувар на јавните интереси, ја повика компанијата OpenAI да ја повлече веднаш својата видеопрограма со вештачка интелигенција, Sora 2, цитирајќи значајни ризици од технологијата за длабоки лажни видеа (deepfake).

Nov. 11, 2025, 1:18 p.m.

Од SEO до GEO: Како LLM-те го менуваат откривањет…

Тековната епизода од Marketing AI SparkCast ја вклучува Aby Varma, основачот на Spark Novus, стратешки партнер кој им помага на маркетинг лидерите да ја прифатат одговорно вештачката интелигенција.

Nov. 11, 2025, 1:13 p.m.

100% од тимовите за приходи сега користат Генерат…

Извештајот за ИИ во Поддршката на приходи 2025 на Allego открива преломна увиђење во примената на вештачката интелигенција across светските тимови за приходи.

Nov. 11, 2025, 1:13 p.m.

IPG ја надминува проценките за третото тримесечје…

Interpublic Group (IPG), водечка глобална маркетинг и рекламна компанија, објави резултати за третото тримесечје кои ги надминале предвидувањата, главно благодарение на силната реклама во секторите на медиуми и здравство.

Nov. 11, 2025, 1:13 p.m.

Dappier лансира пазар на податоци со вештачка инт…

Дапиер, иновативна американска софтверска компанија со седиште во Остон, Тексас, напредува во областа на вештачката интелигенција со понуда на интелигентни софтверски решенија дизајнирани за создавање на интерфејси за корисниците на иднината.

Nov. 11, 2025, 9:49 a.m.

Облак услугите на Oracle овозможени со вештачка и…

Облачните услуги на Oracle базирани на вештачка интелигенција брзо ги здобиваат популарноста, бидејќи бизнисите се обидуваат да ги искористат напредните технологии на AI за подобрување на анализа на податоци и донесување одлуки.

Nov. 11, 2025, 9:20 a.m.

TSMC забележува најслаб раст во последните 18 мес…

Тайванската компанија за производство на полупроводници (TSMC) пријави најбавен месечен раст на приходите во повеќе од година, што ги подгрева загриженоста дека ралито на акциите на вештачката интелигенција (ВИ) можеби не е целосно поддржано од деловните основи на индустријата.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today