lang icon En
Nov. 26, 2024, 9:17 a.m.
2581

Fugatto firmy Nvidia: Rewolucja w Generatywnej AI dla Dźwięku

Brief news summary

Fugatto firmy Nvidia to nowoczesna technologia syntezy dźwięku, która przekształca tekst w dźwięki, chociaż wciąż jest niedostępna dla publiczności. Demo pokazuje jej imponującą zdolność do dodawania efektów, takich jak mowa pod wodą czy syreny przypominające chór. Jednym z głównych wyzwań w rozwoju Fugatto było stworzenie zestawu danych, który uchwyci skomplikowane interakcje między dźwiękiem a językiem. Nvidia rozwiązała to, stosując model językowy do tworzenia scenariuszy dla różnorodnych osobowości dźwiękowych, co zaowocowało zestawem danych o długości 50 000 godzin, niezbędnym do trenowania modelu o 2,5 miliarda parametrów. Kluczową cechą Fugatto jest "ComposableART", umożliwiająca użytkownikom łączenie cech z danych treningowych dla dokładnej kontroli nad aspektami audio, takimi jak akcenty i emocje. Ta funkcja pozwala na dostosowanie emocji w mowie i separację ścieżek wokalnych w muzyce, oferując możliwości twórcze wykraczające poza podstawową syntezę. Nvidia przewiduje, że Fugatto będzie narzędziem wspomagającym kreatywność dźwiękową w takich obszarach jak prototypowanie muzyki i dynamiczne tworzenie ścieżek dźwiękowych do gier, mając na celu uzupełnienie tradycyjnych metod, a nie ich zastępowanie. Firma uważa, że narzędzia AI, takie jak Fugatto, mogą głęboko wpłynąć na przyszły krajobraz muzycznej kreatywności.

Nowy model Nvidia "Fugatto" rozwija generatywną sztuczną inteligencję, przekształcając muzykę, głosy i dźwięki, a nawet tworząc wcześniej niesłyszane brzmienia. Jeszcze nie jest dostępny publicznie, ale przykłady na stronie internetowej pokazują jego zdolność do modyfikacji cech audio, od saksofonów brzmiących jak szczekanie, po podwodne mowy czy chóry syren ambulansów. Ta szeroka zdolność sprawiła, że Nvidia określa Fugatto jako „szwajcarski scyzoryk dla dźwięku”. Wyzwanie polega na stworzeniu zestawu danych treningowych, który podkreśla sensowne związki między dźwiękiem a językiem. Naukowcy Nvidia, używając skryptu Python generowanego przez LLM, stworzyli liczne instrukcje oparte na szablonach i w formie wolnej do opisu „osobowości” dźwięku. Zostały one zastosowane do szerokiego spektrum otwartych zbiorów danych audio, oznaczając je naturalnymi opisami emocji, płci i jakości mowy. Naukowcy utrzymali pewne czynniki stałe, zmieniając inne, aby nauczyć model rozróżniać np. bardziej szczęśliwą mowę czy różne dźwięki instrumentów. Po przetworzeniu 20 milionów próbek (50 000 godzin audio) użyli rdzeni tensorowych Nvidii do stworzenia modelu z 2, 5 miliarda parametrów, prezentując wiarygodne oceny jakości dźwięku. Poza treningiem, system "ComposableART" Fugatto pozwala na dostosowywanie wyjścia audio.

Łączy cechy z zestawu danych, aby tworzyć nowe, niesłyszane dźwięki, używając „warunkowego przewodnictwa” dla nieznanych kombinacji. Choć nie wszystkie wyniki są idealne w kwestii tonacji, różnorodność dźwięków, jak skrzypce brzmiące jak śmiejące się dziecko, pokazuje transformacyjne zdolności Fugatto. Kluczowe jest, że Fugatto traktuje cechy audio jako regulowane kontinuum, a nie jako binarne opcje. Łączy dźwięki, np. gitarę akustyczną z bieżącą wodą, zmieniając balans i dostosowując akcenty lub emocje w mowie. Wykonuje zadania takie jak zmiana emocji w mówionym tekście, izolowanie ścieżek wokalnych i zastępowanie nut w muzyce MIDI różnymi występami wokalnymi. Nvidia postrzega Fugatto jako krok w kierunku niesuperwizyjnego uczenia się wielozadaniowego i przewiduje zastosowania w prototypowaniu piosenek oraz dynamicznych ścieżkach dźwiękowych gier komputerowych. Takie modele są przeznaczone jako narzędzia dla artystów dźwiękowych, a nie jako ich zamienniki. Jak stwierdza producent/autorka piosenek Ido Zmishlany, technologia nieustannie przekształca muzykę, a AI otwiera nowy rozdział w innowacjach muzycznych.


Watch video about

Fugatto firmy Nvidia: Rewolucja w Generatywnej AI dla Dźwięku

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 17, 2025, 1:35 p.m.

Microsoft Copilot Studio umożliwia tworzenie nies…

Microsoft wprowadził swoją najnowszą innowację, Copilot Studio, solidną platformę zaprojektowaną do zmiany sposobu, w jaki firmy integrują sztuczną inteligencję w codzienne przepływy pracy.

Dec. 17, 2025, 1:34 p.m.

Autopilot AI Tesli: Postępy i Wyzwania

System Autopilota opartego na sztucznej inteligencji Tesli niedawno doświadczył istotnych postępów, stanowiąc poważny krok naprzód w rozwoju technologii autonomicznej jazdy.

Dec. 17, 2025, 1:29 p.m.

Budowa centrów danych opartych na sztucznej intel…

Szybka budowa centrów danych opartych na sztucznej inteligencji (AI) wywołuje niespodziewany wzrost zapotrzebowania na miedź, kluczowy element infrastruktury technologicznej.

Dec. 17, 2025, 1:21 p.m.

Nextech3D.ai powołuje globalnego dyrektora ds. sp…

Nextech3D.ai (CSE: NTAR, OTC: NEXCF, FSE: 1SS), firma skoncentrowana na sztucznej inteligencji, specjalizująca się w technologii wydarzeń, modelowaniu 3D i rozwiązaniach z zakresu przestrzennego obliczania, ogłosiła powołanie Jamesa McGuinnessa na stanowisko globalnego szefa sprzedaży, aby kierować swoją międzynarodową organizacją sprzedażową w kontekście skupienia na zwiększaniu przychodów i rozbudowie działalności handlowej do 2026 roku.

Dec. 17, 2025, 1:17 p.m.

Syntetyzacja Wideo za pomocą AI umożliwia tłumacz…

Technologia syntezy wideo wspomagana przez sztuczną inteligencję szybko rewolucjonizuje naukę języków i tworzenie treści, umożliwiając tłumaczenia w czasie rzeczywistym w obrębie filmów.

Dec. 17, 2025, 1:13 p.m.

Sztuczna inteligencja wyszukiwania Google: zachow…

W grudniu 2025 roku Nick Fox, starszy wiceprezes ds.

Dec. 17, 2025, 9:32 a.m.

Pierwszy w historii agent nieruchomości oparty na…

Sztuczna inteligencja szybko przemienia wiele branż, nie wyłączając sektora nieruchomości.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today