lang icon En
Nov. 26, 2024, 9:17 a.m.
3027

Fugatto від Nvidia: революція у генеративному штучному інтелекті для звуку.

Brief news summary

Технологія синтезу аудіо Nvidia Fugatto є передовою розробкою, яка перетворює текстові запити в звуки, проте поки залишається недоступною для широкої публіки. Демонстрація показує її вражаючу здатність додавати ефекти, такі як мова під водою та хороподібні сирени. Одним з основних викликів у розробці Fugatto було створення набору даних, що відображає складні взаємодії між аудіо та мовою. Nvidia вирішила це, використовуючи мовну модель для створення сценаріїв для різних аудіо персонажів, результатом чого став набір даних тривалістю 50,000 годин, необхідний для навчання моделі з 2,5 мільярда параметрів. Ключовою особливістю Fugatto є "ComposableART", що дозволяє користувачам поєднувати характеристики з навчальних даних для детального контролю над аудіо аспектами, такими як акценти та емоції. Ця можливість дозволяє налаштовувати емоції мови і розділяти вокальні треки в музиці, відкриваючи творчі можливості, що виходять за межі базового синтезу. Nvidia бачить Fugatto як інструмент для підвищення аудіо творчості в таких сферах, як прототипування музики та динамічне оцінювання ігор, з метою доповнити традиційні методи, а не замінити їх. Компанія вважає, що інструменти штучного інтелекту, такі як Fugatto, можуть значно вплинути на майбутній вигляд музичної творчості.

Нова модель "Fugatto" від Nvidia покращує генеративний штучний інтелект, трансформуючи музику, голоси та звуки, навіть створюючи раніше нечувані звуки. Хоча вона ще не доступна для загального користування, приклади на веб-сайті демонструють її здатність змінювати аудіо характеристики — від саксофонів, що звучать як гавкіт, до підводної мови або хору сирен швидкої допомоги. Ця широкі можливості дозволили Nvidia описати Fugatto як "швейцарський ніж для звуків". Виклик полягає в створенні набору навчальних даних, що акцентує значущі зв'язки між аудіо і мовою. Дослідники Nvidia, використовуючи LLM-генерований Python-скрипт, створили численні шаблонні та вільні інструкції для опису аудіо "персон". Їх застосували до широкого спектру аудіо даних з відкритим кодом, позначивши їх природними мовними описами, оціненими за емоціями, гендерною приналежністю і якістю мови. Дослідники утримували певні фактори постійними, одночасно змінюючи інші, щоб навчити модель розрізняти, наприклад, радіснішу мову чи різні інструментальні звуки. Після обробки 20 мільйонів зразків (50, 000 годин аудіо) вони використовували тензорні ядра Nvidia для розробки моделі з 2. 5 мільярдами параметрів, що демонструє надійні оцінки якості аудіо. Поза навчанням, система Fugatto під назвою "ComposableART" дозволяє налаштовувати аудіо вивід.

Вона поєднує характеристики зі свого набору даних для створення нових, нечуваних звуків, використовуючи "умовне направлення" для невидимих комбінацій. Хоча не всі результати ідеальні за тоном, різноманітність звуків, як скрипка, що звучить як сміючийся немовля, демонструє трансформативну здатність Fugatto. Важливо, що Fugatto розглядає аудіо характеристики як настроювані континууми, а не двійкові величини. Вона поєднує звуки, як акустичну гітару з звуком води, змінюючи баланс, та налаштовує акценти чи емоції в мові. Вона виконує завдання на кшталт зміни емоційності висловленого тексту, виділення вокальних доріжок або заміни нот у MIDI-музиці з різними вокальними виконаннями. Nvidia бачить Fugatto як крок до несупервізованого багатозадачного навчання і передбачає його застосування у прототипуванні пісень та динамічних музичних доріжках для відеоігор. Такі моделі призначені бути інструментами для аудіо-артистів, а не замінами. Як зазначає продюсер/автор пісень Ідо Змішлані, технології безперервно змінюють музику, з AI відкриваючи новий розділ в музичних інноваціях.


Watch video about

Fugatto від Nvidia: революція у генеративному штучному інтелекті для звуку.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Feb. 21, 2026, 1:30 p.m.

Штучний інтелект у роботах: переосмислення онлайн…

Всеосяжне нове дослідження компанії Hostinger виявило зростаючий вплив штучного інтелекту на цифровий ландшафт, особливо у сфері пошуку онлайн-контенту.

Feb. 21, 2026, 1:26 p.m.

Генерований штучним інтелектом відеоконтент: нова…

У швидкозмінному світі цифрового маркетингу бізнеси все більше використовують штучний інтелект (ШІ) для покращення своїх рекламних зусиль.

Feb. 21, 2026, 1:14 p.m.

Проєкт OpenAI "Stargate": розширення дата-центру …

OpenAI у партнерстві з Oracle та SoftBank презентували амбітний проект «Stargate» — ініціативу вартістю 400 мільярдів доларів, спрямовану на значне розширення інфраструктури штучного інтелекту.

Feb. 21, 2026, 9:27 a.m.

Проєкт Rainier Amazon: 11 мільярдів доларів на да…

Amazon розпочала масштабну ініціативу під назвою Project Rainier, спрямовану на створення величезного $11 мільярдів центру обробки даних із штучного інтелекту на території площею 1200 акрів у штаті Індіана.

Feb. 21, 2026, 9:15 a.m.

Звіт G2 2026: Стан штучного інтелекту в сфері про…

Проспектинг еволюціонував у переважно задачу управління увагою, а не через нестачу лідов.

Feb. 21, 2026, 9:13 a.m.

Штучний інтелект у SEO: покращення досвіду корист…

Штучний інтелект (ШІ) швидко перетворює цифровий маркетинг, особливо в галузі пошукової оптимізації (SEO).

Feb. 21, 2026, 9:13 a.m.

Ігри на основі штучного інтелекту: створення дина…

За останні роки сфера розробки відеоігор зазнала глибоких змін, зокрема завдяки інтеграції технологій штучного інтелекту (ШІ).

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today