lang icon En
Nov. 26, 2024, 9:17 a.m.
3023

Nvidia Fugatto: A generatív mesterséges intelligencia forradalmasítása a hang területén

Brief news summary

Az Nvidia Fugatto egy korszerű audió szintézis technológia, amely a szöveges utasításokat hangokká alakítja, ám egyelőre nem érhető el a nagyközönség számára. Egy bemutató lenyűgözően demonstrálja, hogyan adhat hozzá hatásokat, mint például víz alatti beszéd vagy kórusszerű szirének. Az egyik fő kihívás a Fugatto fejlesztése során egy olyan adathalmaz összeállítása volt, amely rögzíti a hang és nyelv közötti bonyolult interakciókat. Az Nvidia ezt egy nyelvi modell alkalmazásával oldotta meg, amely különféle audio személyiségek számára készített forgatókönyveket, így létrehozva egy 50 000 órás adathalmazt, amely elengedhetetlen volt a 2,5 milliárd paramétert tartalmazó modell betanításához. A Fugatto egyik kulcsfontosságú jellemzője a "ComposableART", amely lehetővé teszi a felhasználók számára, hogy az oktatási adatok tulajdonságait kombinálják, így pontosan vezérelhetik az audió jellemzőit, mint például az akcentusokat és érzelmeket. Ez a funkció lehetővé teszi a beszéd érzelmeinek módosítását és a zenei vokális sávok elkülönítését, új kreatív lehetőségeket kínálva az alapvető szintézisen túl. Az Nvidia úgy látja, hogy a Fugatto egy olyan eszköz lehet, amely fokozza az audio kreativitást olyan területeken, mint a zenei prototípus alkotás és a dinamikus játékzenék, célja a hagyományos módszerek kiegészítése, nem pedig helyettesítése. A cég úgy véli, hogy az AI eszközök, mint a Fugatto, mélyreható hatással lehetnek a zenei kreativitás jövőbeli tájképére.

Az Nvidia új "Fugatto" modellje fejleszti a generatív mesterséges intelligenciát azáltal, hogy átalakítja a zenét, hangokat és zajokat, sőt még soha nem hallott hangokat is képes létrehozni. Bár még nem érhető el nyilvánosan, a weboldalon található példák bemutatják, hogyan tudja módosítani a hangzó tulajdonságokat, például szaxofonokat úgy megszólaltatni, mintha ugatnának, vagy víz alatti beszédet, illetve mentőszirénákat kórusban. Ez a széleskörű képesség késztette az Nvidiát, hogy a Fugattót a hang "svájci bicskájának" nevezze. A kihívás egy olyan képzési adathalmaz kidolgozása, amely kiemeli a jelentős kapcsolódásokat az audio és a nyelv között. Az Nvidia kutatói egy LLM által generált Python szkriptet használva számos sablon alapú és szabad formájú útmutatást alkottak az audio "személyiségek" leírására. Ezeket egy széles körű, nyílt forráskódú audio adathalmazra alkalmazták, amelyeket természetes nyelvi leírásokkal annotáltak, értékelve az érzelmet, nemet és beszédminőséget. A kutatók bizonyos tényezőket állandónak tartottak, míg másokat variáltak, hogy a modell különbségeket tanuljon, mint például boldogabb beszéd vagy különböző hangszerhangok. Miután 20 millió mintát (50 000 óra audiót) feldolgoztak, az Nvidia tenzormagjainak segítségével egy 2, 5 milliárd paraméterrel rendelkező modellt fejlesztettek ki, amely megbízható audio minőségi pontszámokat mutat. A képzés mellett a Fugatto "ComposableART" rendszere lehetővé teszi a testre szabható audió kimenetet.

Az adathalmazából származó tulajdonságok kombinálásával új, soha nem hallott hangokat hoz létre, "feltételes útmutatást" alkalmazva az ismeretlen kombinációkra. Bár nem minden kimenet hangzik tökéletesen, az olyan hangok változatossága, mint például egy nevető baba hangjára emlékeztető hegedű, bemutatja a Fugatto átalakító képességét. Lényegében a Fugatto állítható kontinuumokként kezeli a hangzó tulajdonságokat, nem pedig binárisokként. Képes hangokat kombinálni, például egy akusztikus gitárt a folyó vízzel, az egyensúly módosításával, valamint változtatja a beszéd akcentusait vagy érzelmeit. Olyan feladatokat hajt végre, mint a beszélő szöveg érzelmeinek megváltoztatása, vokális sávok izolálása, és a MIDI zenében a hangjegyek különféle vokális előadásokká cserélése. Az Nvidia a Fugattót egy lépésnek tekinti a felügyelet nélküli multitask tanulás felé, és dal prototípusokban, valamint dinamikus videojáték zenékben képzel el alkalmazásokat. Ilyen modelleket az audio művészek eszközeinek szánják, nem pedig helyettesítőknek. Ahogy Ido Zmishlany producer/dalszerző mondja, a technológia folyamatosan újraformálja a zenét, az MI pedig a zenei innováció új fejezetét jelenti.


Watch video about

Nvidia Fugatto: A generatív mesterséges intelligencia forradalmasítása a hang területén

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Feb. 20, 2026, 1:40 p.m.

A Mesterséges Intelligencia Korszakában: Mi a Rej…

Egy AI-vezérelt digitális ökoszisztémában a perception nemcsak az emberi nézőpontokat, hanem a gépi értékeléseket is alakítja.

Feb. 20, 2026, 1:25 p.m.

A Flat Branch Home Loans elindítja az AI-alapú je…

A Tidalwave projektek várhatóan több mint 200 000 hitelt érintenek 2026 végéig, a növekedést egy novemberben bejelentett 22 millió dolláros Series A finanszírozási kör hajtja, melybe Permanent Capital és D.R. Horton fektetett be.

Feb. 20, 2026, 9:41 a.m.

A mesterséges intelligencia az értékesítésben már…

Mesterséges intelligencia (MI) mélyrehatóan alakítja át az értékesítési környezetet, alapvetően változtatva meg, hogy a vállalkozások miként dolgozzák ki és valósítják meg értékesítési stratégiáikat.

Feb. 20, 2026, 9:26 a.m.

A Kana eltűnésből előbukkan, 15 millió dollárral,…

A marketing az egyik kevés olyan funkció, amit egyetlen iparág sem engedhet meg magának, hogy figyelmen kívül hagyjon, ami magyarázza az AI-alapú marketingeszközök sorozatos, agresszív népszerűsítését a marketingesek körében ma.

Feb. 20, 2026, 9:23 a.m.

Mesterséges Intelligencia: Forradalmasítja a SEO …

A digitális marketing világa jelentős átalakuláson megy keresztül, mivel egyre nagyobb szerepet kap a mesterséges intelligencia (MI), ami jelentősen megváltoztatja a szakemberek SEO (keresőoptimalizálás) kezelését.

Feb. 20, 2026, 9:22 a.m.

Amazon Rainier Projektje: Egy 11 milliárd dolláro…

Az Amazon elindította a Project Rainier nevű, ambiciózus, 11 milliárd dolláros kezdeményezést, amelynek célja egy korszerű mesterséges intelligencia adatközpont megépítése Indiana államban, ezzel jelentős lépést téve a vállalat mesterséges intelligencia technológia iránti elkötelezettségében.

Feb. 20, 2026, 9:12 a.m.

Vera – Mesterséges Intelligencia által támogatott…

Vera úttörő áttörést jelent a televíziós videógyártásban, mivel kihasználja a generatív mesterséges intelligencia legújabb fejlődéseit, és átalakítja a videós tartalom létrehozásának és elosztásának módját.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today