lang icon En
Nov. 26, 2024, 9:17 a.m.
2530

Fugatto de Nvidia : Révolutionner l'IA générative pour le son

Brief news summary

La technologie Fugatto de Nvidia est une avancée de pointe en synthèse audio qui transforme des invites textuelles en sons, bien qu'elle reste indisponible pour le public. Une démo illustre sa capacité impressionnante à ajouter des effets comme la parole sous-marine et des sirènes semblables à un chœur. Un des principaux défis dans le développement de Fugatto a été la création d'un ensemble de données capturant les interactions complexes entre l'audio et le langage. Nvidia a relevé ce défi en utilisant un modèle linguistique pour créer des scripts pour diverses personnalités audio, produisant un ensemble de données de 50 000 heures, essentiel pour former le modèle comportant 2,5 milliards de paramètres. Une caractéristique clé de Fugatto est le "ComposableART", permettant aux utilisateurs de mélanger des caractéristiques du matériel d'entraînement pour un contrôle minutieux des aspects audio tels que les accents et les émotions. Cette capacité permet d'ajuster les émotions dans la parole et de séparer les pistes vocales dans la musique, offrant des possibilités créatives au-delà de la simple synthèse. Nvidia envisage Fugatto comme un outil pour enrichir la créativité audio dans des domaines tels que la création de prototypes musicaux et la composition musicale dynamique pour les jeux, cherchant à compléter plutôt qu'à remplacer les méthodes traditionnelles. L'entreprise croit que les outils d'IA comme Fugatto pourraient avoir un impact profond sur le paysage futur de la créativité musicale.

Le nouveau modèle "Fugatto" de Nvidia améliore l'intelligence artificielle générative en transformant la musique, les voix et les sons, jusqu'à créer des sons jamais entendus auparavant. Pas encore disponible au public, des exemples sur le site démontrent sa capacité à modifier les caractéristiques audio, allant de saxophones ressemblant à des aboiements à des discours sous-marins ou des chœurs de sirènes d'ambulance. Cette vaste compétence a conduit Nvidia à décrire Fugatto comme un "couteau suisse pour le son". Le défi réside dans la création d'un ensemble de données d'entraînement qui met en évidence les relations significatives entre l'audio et le langage. Les chercheurs de Nvidia, utilisant un script Python généré par LLM, ont créé de nombreuses instructions basées sur des modèles et en forme libre pour décrire des "personas" audio. Celles-ci ont été appliquées à un large éventail d'ensembles de données audio open source, les annotant de descriptions en langage naturel quantifiées par émotion, genre et qualité de la parole. Les chercheurs ont maintenu certains facteurs constants tout en variant d'autres pour enseigner au modèle des distinctions comme des discours plus heureux ou des sons d'instruments différents. Après avoir traité 20 millions d'échantillons (50 000 heures d'audio), ils ont utilisé les cœurs tensoriels de Nvidia pour développer un modèle avec 2, 5 milliards de paramètres, présentant des scores de qualité audio fiables. Au-delà de l'entraînement, le système "ComposableART" de Fugatto permet une sortie audio personnalisable.

Il combine des traits de son ensemble de données pour créer de nouveaux sons inédits, utilisant une "guidance conditionnelle" pour des combinaisons invisibles. Bien que toutes les sorties ne soient pas parfaites sur le plan tonal, la variété des sons, comme un violon ressemblant à un bébé riant, illustre la capacité transformative de Fugatto. Essentiellement, Fugatto traite les caractéristiques audio comme des continuums ajustables, et non binaires. Il combine des sons, comme une guitare acoustique avec de l'eau courante, en modifiant l'équilibre, et ajuste les accents ou les émotions dans le discours. Il exécute des tâches telles que modifier l'émotion d'un texte parlé, isoler des pistes vocales et remplacer des notes dans la musique MIDI par des performances vocales variées. Nvidia considère Fugatto comme un pas vers l'apprentissage multitâche non supervisé et envisage des applications dans le prototypage de chansons et les bandes sonores dynamiques de jeux vidéo. Ces modèles sont destinés à être des outils pour les artistes audio plutôt que des remplacements. Comme le déclare le producteur/compositeur Ido Zmishlany, la technologie façonne continuellement la musique, l'IA ouvrant un nouveau chapitre dans l'innovation musicale.


Watch video about

Fugatto de Nvidia : Révolutionner l'IA générative pour le son

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 13, 2025, 9:21 a.m.

Services de création de contenu et d'automatisati…

LE SMM PARIS est une agence de médias sociaux basée à Paris, spécialisée dans la création de contenu avancée alimentée par l'IA et dans les services d'automatisation conçus pour les marques de luxe.

Dec. 13, 2025, 9:21 a.m.

Workbooks dévoile l'intégration de l'IA pour auto…

L’IA Réveille la Machine de Vente : La Bold Promise de Workbooks sur l’Automatisation Intelligente Dans le paysage actuel de la gestion de la relation client (CRM), où les équipes commerciales sont submergées par des données et des tâches répétitives, Workbooks, un fournisseur de CRM basé au Royaume-Uni, a lancé une intégration d’intelligence artificielle conçue pour révolutionner les opérations de vente

Dec. 13, 2025, 9:20 a.m.

Comment Expedia Group pense que l'IA peut amélior…

L'intelligence artificielle (IA) influence le marketing du voyage, bien que les applications les plus efficaces soient encore en cours d'identification.

Dec. 13, 2025, 9:18 a.m.

Prime Video suspend les résumés alimentés par l'I…

Prime Video a décidé de suspendre temporairement ses nouvelles résumés générés par intelligence artificielle après avoir découvert des inexactitudes factuelles dans le résumé de la première saison de « Fallout ».

Dec. 13, 2025, 9:14 a.m.

OpenAI acquiert io, anciennement Codeium, pour re…

OpenAI, le laboratoire de recherche en intelligence artificielle de renom, a renforcé de manière significative ses capacités matérielles en acquérant io, une startup spécialisée dans le matériel informatique axé sur l'IA.

Dec. 13, 2025, 9:12 a.m.

IA et SEO : Améliorer la qualité et la pertinence…

L'intelligence artificielle (IA) transforme la manière dont la qualité et la pertinence du contenu sont gérées dans le cadre des pratiques de référencement (SEO).

Dec. 13, 2025, 5:27 a.m.

La société de marketing IA Mega signe un bail de …

Mega, une plateforme de soutien marketing utilisant l'intelligence artificielle, a signé un bail pour 3 926 pieds carrés au neuvième étage de The Refinery at Domino, géré par Two Trees Management, selon le propriétaire du bâtiment qui l’a indiqué à Commercial Observer.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today