MIT entwickelt KI für menschenähnliche Stimmimitation

Die Fähigkeit, mit unserer Stimme Geräusche zu imitieren, wie etwa einen fehlerhaften Automotor oder das Miauen einer Katze, kann ein wirksames Mittel sein, um Konzepte zu vermitteln, wenn Worte unzureichend sind. Diese vokale Imitation ähnelt dem Zeichnen einer schnellen Skizze zur Kommunikation einer Idee. Inspiriert von der Kognitionswissenschaft haben Forscher des MIT CSAIL ein KI-System entwickelt, das ohne vorheriges Training oder Einflussnahme von menschlichen Stimmimpressionen menschenähnliche Imitationen erzeugen kann. Die Forscher konstruierten ein Modell des menschlichen Vokaltrakts, das simuliert, wie Kehle, Zunge und Lippen Klänge aus dem Kehlkopf formen. Ein kognitiv inspiriertes KI-Algorithmus steuert dieses Modell, um Imitationen zu erstellen, wobei berücksichtigt wird, wie Menschen sich entscheiden, Klänge zu kommunizieren. Das Modell kann verschiedene Geräusche imitieren, wie raschelndes Laub, das Zischen einer Schlange oder das Sirenengeräusch eines Krankenwagens. Es kann den Prozess auch umkehren und reale Geräusche aus menschlichen Vokalimitationen erraten, ähnlich wie beim Abrufen von Bildern aus Skizzen. Zum Beispiel kann es zwischen einem von Menschen imitierten "Miauen" und "Zischen" einer Katze unterscheiden. Die Forschung weist auf potenzielle Anwendungen des Modells hin, wie etwa Imitations-basierte Schnittstellen für Sounddesigner, die Verbesserung von KI-Charakteren in virtuellen Realitäten und die Unterstützung von Sprachlernern.
Mitautoren vom MIT CSAIL betonen, dass, wie bei visueller Ausdrucksweise, Realismus nicht immer das ultimative Ziel in der Klangimitation ist. Ihre Arbeit bietet Einblicke in auditive Abstraktion. Um ihr Modell zu verfeinern, entwickelte das Team drei Versionen, beginnend mit einem Basis-Modell, das realistische Klangimitationen anstrebte, aber das menschliche Verhalten nicht gut wiedergab. Danach erstellten sie ein "kommunikatives" Modell, das sich auf die markanten Merkmale eines Geräuschs konzentrierte, was die Ergebnisse verbesserte. Schließlich fügten sie Nuancen hinzu, die den Aufwand berücksichtigen, den Menschen in Imitationen investieren, was zu menschenähnlicheren Ergebnissen führte. In einem Verhaltensexperiment zogen menschliche Richter manchmal KI-generierte vokale Imitationen den menschlichen vor, bei bestimmten Geräuschen. Die Forscher planen, ihr Modell in verschiedenen Bereichen anzuwenden, einschließlich Sprachentwicklung, kindlicher Spracherwerb und Vogelimitationen. Obwohl das Modell noch Herausforderungen gegenübersteht, wie etwa das genaue Imitieren einiger Konsonanten oder sprachübergreifender Klangunterschiede, ist es ein vielversprechender Schritt in Richtung eines tieferen Verständnisses der Rolle von Sprachimitation in Kommunikation und Sprachentwicklung. Die Arbeit betont das Zusammenspiel zwischen physiologischen, sozialen und kommunikativen Faktoren, mit Auswirkungen auf zukünftige Technologien in Musik, Kunst und darüber hinaus.
Brief news summary
Forscher von MITs Computer Science and Artificial Intelligence Laboratory (CSAIL) haben ein fortgeschrittenes KI-System entwickelt, das überzeugend menschliche Stimmen und Umgebungsgeräusche nachahmen kann, indem es den menschlichen Vokaltrakt modelliert. Diese KI, inspiriert von der Kognitionswissenschaft, kann verschiedene Geräusche wie raschelnde Blätter und Sirenen replizieren und reale Geräusche durch ihre mimetischen Fähigkeiten erkennen. Die Innovation verspricht "imitationsbasierte" Schnittstellen für Sounddesigner und kann die Realitätsnähe von KI-Charakteren in virtuellen Welten verbessern. Bei Tests bevorzugten die Richter in 25 % der Fälle die Nachahmungen der KI, insbesondere ihre Wiedergabe von Motorgeräuschen. Unter der Leitung der Doktoranden Kartik Chandra und Karima Ma sowie des Studenten Matthew Caren entwickelte das Forschungsteam drei Versionen der KI. Die endgültige Version verbessert die Geräuschnachahmung, indem sie Vernunft und Kontext einbezieht und Geschwindigkeit und Lautstärke für abstrakte auditive Skizzen anpasst. Trotz Schwierigkeiten mit einigen Konsonantengeräuschen hat die KI zahlreiche potenzielle Anwendungen. Filmemacher und Musiker könnten diese Fähigkeiten nutzen, während sie ebenfalls Einblicke in die Sprachentwicklung und die Analyse von Vogelgesang bieten könnte. Diese Forschung bietet wertvolle Perspektiven zur Sprachentwicklung und Onomatopoesie und hebt die Bedeutung von Physiologie, sozialer Vernunft und Kommunikation in der stimmlichen Nachahmung hervor. Finanziert durch die Hertz Foundation und die NSF, verbessert die Studie das Verständnis von auditiver Abstraktion und Ausdruck.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

KI-gestützte Cyberkriminalität führt zu Rekordver…
Künstliche Intelligenz (KI) hat zahlreiche Branchen transformiert, von der Gesundheitsversorgung bis hin zur Finanzwelt, und dabei bemerkenswerte Fortschritte ermöglicht.

XRP’s globale Erholung und der Aufstieg des Block…
Da sich der Kryptowasenmarkt weiterentwickelt, tritt Ripple's XRP-Token zunehmend als starker Kandidat für die breite Akzeptanz auf.

KI im Verkehr: Autonome Fahrzeuge und intelligent…
Künstliche Intelligenz (KI) entwickelt sich rapide zu einer transformierenden Kraft, die den Verkehr neu gestaltet und bedeutende Fortschritte zur Verbesserung von Sicherheit, Effizienz und Komfort für alle Verkehrsteilnehmer bietet.

Investieren in den Blockchain-Boom
Seit dem Debüt von Bitcoin im Jahr 2009 haben sich Blockchain- und Distributed-Ledger-Technologien von Nischen-Kuriositäten zu grundlegenden Komponenten von Finanzsystemen, Lieferketten und digitalen Ökosystemen entwickelt.

KI-Exoskelett gibt Rollstuhlfahrern die Freiheit,…
Caroline Laubach, eine Überlebende eines Rückenmarksinfarkts und vollständige Rollstuhlfahrerin, ist Testpilotin für Wandercrafts KI-gestützten Exoskelett-Prototyp, der mehr als nur neue Technologie bietet – er stellt die Freiheit und Verbindung wieder her, die für Rollstuhlfahrer oft fehlen.

KI-gestützte Cyberkriminalität verursacht Rekordv…
Ein aktueller FBI-Bericht offenbart einen deutlichen Anstieg der AI-gesteuerten Cyberkriminalität, der zu Rekordfinanzverlusten von geschätzten 16,6 Milliarden Dollar führt.

Wie kann die USA an die Spitze der KI-Entwicklung…
Nehmen Sie an der Diskussion teil Melden Sie sich an, um Kommentare zu Videos zu hinterlassen und Teil des Geschehens zu sein