lang icon En
Nov. 26, 2024, 9:17 a.m.
2574

Nvidia'nın Fugatto'su: Ses İçin Üretici Yapay Zekayı Devrim Niteliğinde Yenilemek

Brief news summary

Nvidia'nın Fugatto'su, metin girdilerini seslere dönüştüren ileri düzey bir ses sentezi teknolojisidir, ancak henüz halka açık değildir. Bir demo, su altı konuşması ve koro benzeri sirenler gibi etkileyici efektler ekleme yeteneğini sergiliyor. Fugatto'nun geliştirilmesindeki en büyük zorluklardan biri, karmaşık ses-dil etkileşimlerini yakalayan bir veri kümesi oluşturmaktı. Nvidia, çeşitli sesli karakterler için senaryolar oluşturmak üzere bir dil modelini kullanarak bu zorluğun üstesinden geldi ve bu modelin eğitimi için 50.000 saatlik, 2,5 milyar parametreye sahip bir veri kümesi oluşturdu. Fugatto'nun kilit özelliklerinden biri "ComposableART"tır ve bu, kullanıcılara sesin aksan ve duygular gibi yönleri üzerinde titiz kontrol sağlamak için eğitim verilerinin özelliklerini harmanlama imkanı tanır. Bu özellik, konuşma duygularında ayarlamalar yapma ve müzikteki vokal parçalarını ayırma olanağı sunarak, temel sentezin ötesinde yaratıcı seçenekler sunar. Nvidia, Fugatto'yu müzik prototipleme ve dinamik oyun müzikleri gibi alanlarda ses yaratıcılığını artıracak bir araç olarak öngörmekte, geleneksel yöntemlerin yerine değil, onları tamamlayıcı bir rol üstlenmeyi hedeflemektedir. Şirket, Fugatto gibi yapay zeka araçlarının müzikal yaratıcılığın gelecekteki şekillenmesinde derin etkiler yaratabileceğine inanıyor.

Nvidia'nın yeni "Fugatto" modeli, müzik, sesler ve sesleri dönüştürerek, daha önce duyulmamış sesler bile yaratarak, üretken yapay zekayı geliştiriyor. Henüz herkese açık olmayan bu modelin, internet sitesindeki örnekler, ses özelliklerini değiştirme yeteneğini gösteriyor; saksafonların havlamaya benzemesi, su altındaki konuşmalar veya ambulans sirenlerinden oluşan korolar gibi. Bu geniş yeteneklerinden dolayı Nvidia, Fugatto'yu ses için bir "İsviçre çakısı" olarak tanımlıyor. Zorluk, ses ve dil arasındaki anlamlı ilişkileri vurgulayan bir öğretim veri seti oluşturmaktır. Nvidia'nın araştırmacıları, bir LLM tarafından üretilen Python betiği kullanarak, ses "kişiliklerini" tanımlamak için çok sayıda şablon tabanlı ve serbest biçimli talimat yarattılar. Bunlar, açık kaynaklı geniş bir ses veri setine uygulandı ve doğal dil açıklamalarıyla duygu, cinsiyet ve konuşma kalitesine göre derecelendirildi. Araştırmacılar, modelin daha mutlu konuşmalar veya farklı enstrüman sesleri gibi ayrımları öğrenmesi için bazı faktörleri sabit tutarken diğerlerini değiştirdiler. 20 milyon örnek (50. 000 saat ses) işlendiğinde, Nvidia tensor çekirdeklerini kullanarak 2. 5 milyar parametre içeren, güvenilir ses kalitesi puanları sergileyen bir model geliştirdiler. Eğitimin ötesinde, Fugatto'nun "ComposableART" sistemi, özelleştirilebilir ses çıktısı sunuyor.

Veri setinden gelen özellikleri yeni, duyulmamış sesler oluşturmak için birleştiriyor ve görülmemiş kombinasyonlar için "koşullu rehberlik" kullanıyor. Her ne kadar tüm çıkışlar mükemmel olmasa da, bir kemanın gülen bir bebeğe benzemesi gibi ses çeşitliliği, Fugatto'nun dönüştürücü yeteneğini gözler önüne seriyor. Önemli olarak, Fugatto, ses özelliklerini ikili yerine ayarlanabilir süreklilikler olarak ele alıyor. Bir akustik gitarı akan suyla birleştirerek dengeleri değiştiriyor, konuşmalarda aksanları veya duyguları ayarlıyor. Konuşma metninin duygusunu değiştirme, vokal parçalarını izole etme ve MIDI müzikteki notaları çeşitli vokal performanslarla değiştirme gibi görevleri yerine getiriyor. Nvidia, Fugatto'yu denetimsiz çoklu görev öğrenmeye doğru bir adım olarak görüyor ve şarkı prototipleme ve dinamik video oyunu müziklerinde uygulamalar öngörüyor. Bu tür modeller, ses sanatçıları için araçlar olarak tasarlanıyor, yerine geçmek için değil. Yapımcı/şarkı yazarı Ido Zmishlany'nin ifade ettiği gibi, teknoloji müziği sürekli olarak yeniden şekillendiriyor ve yapay zeka, müzikal yenilikte yeni bir bölümü işaret ediyor.


Watch video about

Nvidia'nın Fugatto'su: Ses İçin Üretici Yapay Zekayı Devrim Niteliğinde Yenilemek

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 17, 2025, 5:24 a.m.

20'den Fazla Yapay Zeka Ajanı Yaptık ve Tüm İnsan…

SaaStr AI Londra'da, Amelia ve ben, AI SDR (Satış Geliştirme Temsilcisi) yolculuğumuza daldık; tüm e-postalarımızı, verilerimizi ve performans ölçütlerimizi paylaştık.

Dec. 17, 2025, 5:23 a.m.

Yapay Zeka Pazarlama Analitiği: Otomasyon Çağında…

Son yıllarda, pazarlama analitiği yapay zeka (YZ) teknolojilerindeki gelişmelerle önemli ölçüde dönüştü.

Dec. 17, 2025, 5:22 a.m.

Yapay Zeka Videolu Kişiselleştirme, E-Ticaret Müş…

Dijital pazarlama ve e-ticaretin hızla değişen alanında, kişiselleştirme müşterilerle etkileşim kurmak ve satışları artırmak için hayati hale geldi.

Dec. 17, 2025, 5:21 a.m.

Yapay Zeka Teknolojisi ile SEO'yu Yeniden Şekille…

Yapay Zekanın SEO Stratejilerini Dönüştürmesi Günümüzün hızla gelişen dijital ortamında, etkili SEO stratejileri her zamankinden daha önemli hale geldi

Dec. 17, 2025, 5:19 a.m.

Yapay Zeka Destekli Pazarlama Platformu, Sosyal M…

SMM Deal Finder, müşteri kazanımında devrim yaratmayı hedefleyen yenilikçi bir yapay zeka destekli platform başlattı.

Dec. 17, 2025, 5:14 a.m.

Intel, AMD ve Nvidia'yı yakalamak için koşuşturur…

Intel'in, hızla gelişen yapay zeka donanımı pazarında konumunu güçlendirmek amacıyla, yapay zeka çipleri konusunda uzmanlaşmış SambaNova Systems'ı satın alma konusunda erken aşama görüşmelerde bulunduğu bildirildi.

Dec. 16, 2025, 1:29 p.m.

SaaStr Hafta'nın AI Uygulaması: Kintsugi — Satış …

Her hafta, B2B ve Bulut şirketleri için gerçek sorunları çözen yapay zeka odaklı bir uygulamayı ön plana çıkarıyoruz.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today