Het nieuwe "Fugatto"-model van Nvidia verbetert generatieve AI door muziek, stemmen en geluiden te transformeren en zelfs nieuwe, nog nooit eerder gehoorde geluiden te creëren. Hoewel het nog niet openbaar beschikbaar is, tonen voorbeelden op de website het vermogen om audiokenmerken aan te passen, van saxofoonklanken die als geblaf klinken tot onderwaterspraak of koren van ambulancesirenes. Vanwege deze brede vaardigheid beschrijft Nvidia Fugatto als een "Zwitsers zakmes voor geluid". De uitdaging ligt in het samenstellen van een trainingsdataset die betekenisvolle relaties tussen audio en taal benadrukt. Onderzoekers van Nvidia gebruikten een door een LLM gegenereerd Python-script om talrijke sjabloon-gebaseerde en vrije instructies te creëren om audio "personas" te beschrijven. Deze werden toegepast op een breed scala aan open-source audiodatasets en geannoteerd met natuurtalige beschrijvingen, gekwantificeerd door emotie, geslacht en spraakkwaliteit. De onderzoekers hielden bepaalde factoren constant terwijl ze andere varieerden om het model te leren onderscheid te maken tussen bijvoorbeeld vrolijkere spraak of verschillende instrumentklanken. Na het verwerken van 20 miljoen voorbeelden (50. 000 uur aan audio), gebruikten ze Nvidia tensorcores om een model met 2, 5 miljard parameters te ontwikkelen, wat betrouwbare audio kwaliteitscores liet zien. Buiten de training stelt Fugatto's "ComposableART"-systeem maatwerk in audio-uitvoer mogelijk.
Het combineert eigenschappen uit zijn dataset om nieuwe, nog niet eerder gehoorde geluiden te creëren, met behulp van "voorwaardelijke begeleiding" voor ongeziene combinaties. Hoewel niet alle uitgangen toonzuiver zijn, toont de verscheidenheid aan geluiden, zoals een viool die als een lachende baby klinkt, de transformerende vaardigheid van Fugatto aan. Cruciaal is dat Fugatto audio-eigenschappen beschouwt als afstembare continuüms, geen binaries. Het combineert geluiden, zoals een akoestische gitaar met stromend water, door de balans aan te passen, en veranderde accenten of emoties in spraak. Het voert taken uit zoals het veranderen van de emotie van gesproken tekst, het isoleren van vocale sporen, en het vervangen van noten in MIDI-muziek met gevarieerde vocale uitvoeringen. Nvidia ziet Fugatto als een stap richting ongecontroleerd multitask-leren en voorziet toepassingen in liedprototypevorming en dynamische video game scores. Dergelijke modellen zijn bedoeld als hulpmiddelen voor audioartiesten in plaats van vervangingen. Zoals producer/songwriter Ido Zmishlany stelt, hervormt technologie voortdurend muziek, waarbij AI een nieuw hoofdstuk in muzikale innovatie markeert.
Nvidia's Fugatto: De Revolutie van Generatieve AI voor Geluid
Z.ai, voorheen bekend als Zhipu AI, is een vooraanstaand Chinees technologisch bedrijf dat zich specialiseert in kunstmatige intelligentie.
Jason Lemkin leidde de seedronde via SaaStr Fund in unicorn Owner.com, een AI-gedreven platform dat de manier waarop kleine restaurants opereren transformeert.
Het jaar 2025 werd gedomineerd door AI, en 2026 zal hierin een vergelijkbare rol spelen, met digitale intelligentie als de belangrijkste ontwrichtende factor in media, marketing en reclame.
Kunstmatige intelligentie (AI) transformationeert op dramatische wijze de manier waarop videocontent wordt geleverd en ervaren, vooral op het gebied van videocompressie.
Lokale zoekmachine-optimalisatie is nu cruciaal voor bedrijven die klanten in hun directe geografische omgeving willen aantrekken en behouden.
Adobe heeft een nieuwe suite van kunstmatige intelligentie (AI) agents geïntroduceerd die bedoeld zijn om merken te helpen de interacties met consumenten op hun websites te verbeteren.
De openbare richtlijnen van Amazon voor het optimaliseren van productvermeldingen voor Rufus, zijn AI-gestuurde shopping assistant, blijven ongewijzigd, met geen nieuw advies voor verkopers.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today