Nowy model Nvidia "Fugatto" rozwija generatywną sztuczną inteligencję, przekształcając muzykę, głosy i dźwięki, a nawet tworząc wcześniej niesłyszane brzmienia. Jeszcze nie jest dostępny publicznie, ale przykłady na stronie internetowej pokazują jego zdolność do modyfikacji cech audio, od saksofonów brzmiących jak szczekanie, po podwodne mowy czy chóry syren ambulansów. Ta szeroka zdolność sprawiła, że Nvidia określa Fugatto jako „szwajcarski scyzoryk dla dźwięku”. Wyzwanie polega na stworzeniu zestawu danych treningowych, który podkreśla sensowne związki między dźwiękiem a językiem. Naukowcy Nvidia, używając skryptu Python generowanego przez LLM, stworzyli liczne instrukcje oparte na szablonach i w formie wolnej do opisu „osobowości” dźwięku. Zostały one zastosowane do szerokiego spektrum otwartych zbiorów danych audio, oznaczając je naturalnymi opisami emocji, płci i jakości mowy. Naukowcy utrzymali pewne czynniki stałe, zmieniając inne, aby nauczyć model rozróżniać np. bardziej szczęśliwą mowę czy różne dźwięki instrumentów. Po przetworzeniu 20 milionów próbek (50 000 godzin audio) użyli rdzeni tensorowych Nvidii do stworzenia modelu z 2, 5 miliarda parametrów, prezentując wiarygodne oceny jakości dźwięku. Poza treningiem, system "ComposableART" Fugatto pozwala na dostosowywanie wyjścia audio.
Łączy cechy z zestawu danych, aby tworzyć nowe, niesłyszane dźwięki, używając „warunkowego przewodnictwa” dla nieznanych kombinacji. Choć nie wszystkie wyniki są idealne w kwestii tonacji, różnorodność dźwięków, jak skrzypce brzmiące jak śmiejące się dziecko, pokazuje transformacyjne zdolności Fugatto. Kluczowe jest, że Fugatto traktuje cechy audio jako regulowane kontinuum, a nie jako binarne opcje. Łączy dźwięki, np. gitarę akustyczną z bieżącą wodą, zmieniając balans i dostosowując akcenty lub emocje w mowie. Wykonuje zadania takie jak zmiana emocji w mówionym tekście, izolowanie ścieżek wokalnych i zastępowanie nut w muzyce MIDI różnymi występami wokalnymi. Nvidia postrzega Fugatto jako krok w kierunku niesuperwizyjnego uczenia się wielozadaniowego i przewiduje zastosowania w prototypowaniu piosenek oraz dynamicznych ścieżkach dźwiękowych gier komputerowych. Takie modele są przeznaczone jako narzędzia dla artystów dźwiękowych, a nie jako ich zamienniki. Jak stwierdza producent/autorka piosenek Ido Zmishlany, technologia nieustannie przekształca muzykę, a AI otwiera nowy rozdział w innowacjach muzycznych.
Fugatto firmy Nvidia: Rewolucja w Generatywnej AI dla Dźwięku
Microsoft wprowadził swoją najnowszą innowację, Copilot Studio, solidną platformę zaprojektowaną do zmiany sposobu, w jaki firmy integrują sztuczną inteligencję w codzienne przepływy pracy.
System Autopilota opartego na sztucznej inteligencji Tesli niedawno doświadczył istotnych postępów, stanowiąc poważny krok naprzód w rozwoju technologii autonomicznej jazdy.
Szybka budowa centrów danych opartych na sztucznej inteligencji (AI) wywołuje niespodziewany wzrost zapotrzebowania na miedź, kluczowy element infrastruktury technologicznej.
Nextech3D.ai (CSE: NTAR, OTC: NEXCF, FSE: 1SS), firma skoncentrowana na sztucznej inteligencji, specjalizująca się w technologii wydarzeń, modelowaniu 3D i rozwiązaniach z zakresu przestrzennego obliczania, ogłosiła powołanie Jamesa McGuinnessa na stanowisko globalnego szefa sprzedaży, aby kierować swoją międzynarodową organizacją sprzedażową w kontekście skupienia na zwiększaniu przychodów i rozbudowie działalności handlowej do 2026 roku.
Technologia syntezy wideo wspomagana przez sztuczną inteligencję szybko rewolucjonizuje naukę języków i tworzenie treści, umożliwiając tłumaczenia w czasie rzeczywistym w obrębie filmów.
W grudniu 2025 roku Nick Fox, starszy wiceprezes ds.
Sztuczna inteligencja szybko przemienia wiele branż, nie wyłączając sektora nieruchomości.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today