lang icon English
Nov. 26, 2024, 9:17 a.m.
2296

Nvidiaचा फुगाटो: ध्वनीसाठी जनरेटिव्ह AI मध्ये क्रांती घडताना

Brief news summary

Nvidia चे Fugatto हे प्रगत ऑडिओ सिंथेसिस तंत्रज्ञान आहे जे मजकूर संकेतांना ध्वनींमध्ये रूपांतरित करते, जरी ते जनतेसाठी उपलब्ध नाही. त्याच्या क्षमतांचे प्रदर्शन अविश्वसनीय आहे, ज्यामध्ये पाण्याखालील भाषण आणि गायकांच्या शिरांसारख्या प्रभावांची भर घालता येते. Fugatto विकसित करण्यातील एक मोठे आव्हान म्हणजे गुंतागुंतीच्या ऑडिओ-भाषा परस्परसंवादांचे चित्रण करणारा डेटासेट तयार करणे. Nvidia ने विविध ऑडिओ व्यक्तिमत्वांसाठी स्क्रिप्ट तयार करण्यासाठी एक भाषा मॉडेल वापरले, ज्यामुळे मॉडेल प्रशिक्षणासाठी आवश्यक ५०,००० तासांचा डेटासेट तयार झाला, ज्यामध्ये २.५ अब्ज पॅरामीटर्स आहेत. Fugatto चे एक मुख्य वैशिष्ट्य म्हणजे "ComposableART," जे वापरकर्त्यांना प्रशिक्षण डेटा मधून वैशिष्ट्ये एकत्र करून ऑडिओच्या घटकांवर जसे की उच्चार आणि भावना यावर अत्यंत नियंत्रण ठेवण्यासाठी सक्षम करते. ही क्षमता भाषणाच्या भावनांमध्ये बदल करू शकते आणि संगीतातील वोकल ट्रॅक्स विभक्त करू शकते, मूलभूत सिंथेसिसच्या पलीकडे सर्जनशील शक्यता पुरवते. Nvidia Fugatto ला संगीत प्रोटोटायपिंग आणि डायनॅमिक गेम स्कोरिंगसारख्या क्षेत्रांमध्ये ऑडिओ निर्मिती वाढवण्यासाठी एक साधन म्हणून पाहते, पारंपरिक पद्धतींची जागा घेण्याऐवजी त्यांना पूरक बनवण्याचे उद्दिष्ट आहे. कंपनीला विश्वास आहे की Fugatto सारखी AI साधने संगीतिक सर्जनशीलतेच्या भविष्यावर मोठा प्रभाव पाडू शकतात.

एनव्हिडियाचा नवा "फुगाटो" मॉडेल जनरेटिव्ह एआयला संगीत, आवाज आणि ध्वनींना रूपांतरित करून उत्तेजन देते, अगदी पहिल्यांदा ऐकलेले ध्वनी निर्माण करते. अद्याप सार्वजनिकरित्या उपलब्ध नसलेले, वेबसाइटवरील उदाहरणे त्याच्या ऑडिओ लक्षणे बदलण्याच्या क्षमतेचे प्रदर्शन करतात, सॅक्सोफोनला भुंकण्यासारखे नियंत्रणापासून ते पाण्याखालचा संवाद किंवा रुग्णवाहिका सायरन्सच्या गायनापर्यंत. या विस्तृत क्षमतेने एनव्हिडियाला फुगाटोला "स्विस आर्मी नाइफ फॉर साउंड" असे वर्णन करण्यास प्रवृत्त केले आहे. चुनौती म्हणजे एक प्रशिक्षण डेटा सेट तयार करणे जे ऑडिओ आणि भाषेतील अर्थपूर्ण नाते दाखवते. एनव्हिडियाच्या संशोधकांनी, LLM-जनरेट केलेल्या प्याथन स्क्रिप्टचा वापर करून, असंख्य टेम्प्लेट-आधारित आणि मुक्त-आकाराच्या सूचना तयार केल्या, जेणेकरून ऑडिओ "व्यक्तिमत्वे" वर्णन करता येतील. हे विविध प्रकारच्या मुक्त स्रोत ऑडिओ डेटा सेट्सना लागू केले गेले आहे, त्यांना स्वाभाविक भाषा वर्णने दिली जाऊन भावना, लिंग, आणि भाषणाचा गुण यांनी मोजले. संशोधकांनी काही घटक स्थिर ठेवले तर इतर बदलून मॉडेलला अधिक आनंदी भाषण किंवा विविध वाद्य ध्वनी शिकवले. २० दशलक्ष नमुने (५०, ००० तास ऑडिओ) प्रक्रियेनंतर, त्यांनी एनव्हिडिया टेन्सर कोरचा वापर करून २. ५ अब्ज पॅरामीटर्ससह मॉडेल तयार केले, जे विश्वासार्ह ऑडिओ गुणवत्ता स्कोर्स दर्शवते. प्रशिक्षणाच्या पलीकडे, फुगाटोच्या "कंपोजेबलएआरटी" प्रणालीत अनुकूलनक्षम ऑडिओ उत्पादनाची सुविधा आहे.

हे त्याच्या डेटासेटमधून विशेषता संयोजित करते आणि "Conditional Guidance" चा वापर करून नवीन, अनुपस्थित ध्वनी उत्पन्न करते. सर्व उत्पादन योग्य सुरांवर नसले तरी ध्वनींची विविधता, जसे की व्हायोलिन एक हसणाऱ्या बाळासारखे वाटते, फुगाटोच्या रूपांतरित क्षमतेचा अनुभव देते. महत्त्वाचे म्हणजे, फुगाटो ऑडिओ वैशिष्ट्यांना बायनरीजऐवजी ट्यून करण्यायोग्य सतत मानतो. ते आवाज कम्बाईन करते, जसे की ध्वनिक गिटार सोबत पाण्याचा प्रवाह जोडणे, आणि भाषणात उच्चार किंवा भावना समायोजित करते. ते म्हटलेले मजकूर बदलण्यासाठी भावना बदलणे, व्होकल ट्रॅक विलग करणे, आणि MIDI संगीतामध्ये नोट्स बदलणे अशा कार्यांना साध्य करते. एनव्हिडिया फुगाटोल unsupervised multitask शिकण्याच्या दिशेने एक पाऊल म्हणून बघते आणि गाण्याच्या प्रोटोटायपिंग आणि गतिशील व्हिडिओ गेम स्कोअरमध्ये अनुप्रयोगाचा विचार करते. अशा मॉडेल्स म्हणजे ऑडिओ कलाकारांसाठी साधने आहेत, पर्याय नाहीत. निर्माता/गीतकार इदो झ्मिस्लानी असे सांगतात, तंत्रज्ञान सतत संगीतात परिवर्तन घडवते, आणि एआय संगीत नवकल्पनांमधील एक नवीन अध्याय लिहीत आहे.


Watch video about

Nvidiaचा फुगाटो: ध्वनीसाठी जनरेटिव्ह AI मध्ये क्रांती घडताना

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Nov. 11, 2025, 1:23 p.m.

पब्लिक सिटीझनने OpenAI ला विनंती केली AI व्हिडीओ अ‍…

पब्लिक सिटीझन, सार्वजनिक हितांचे रक्षण करण्यासाठी समर्पित एक प्रमुख देखरेखी करणारा संस्था, ने तातडीने OpenAI ला त्याच्या AI-सक्षम व्हिडिओ ऍप Sora 2 ला मागीलकरण्याची विनंती केली आहे, कारण खोलफेक तंत्रज्ञानमुळे गंभीर धोके निर्माण होऊ शकतात.

Nov. 11, 2025, 1:18 p.m.

एसईओपासून GEOपर्यंत: एलएलएम्स ब्रँड शोधण्यात कसे बदल …

या एम्पिसोडमध्ये मार्केटिंग AI स्पार्ककास्टमध्ये Aby Varma यांचा प्रवेश आहे, जे Spark Novus चे संस्थापक आहेत आणि मार्केटिंग लीडर्सना जबाबदारीने AI स्वीकारण्यास मदत करणारे रणनीतिक भागीदार आहेत.

Nov. 11, 2025, 1:13 p.m.

आता १००% उत्पन्न संघ वापरतात जेनएआय; ५१% म्हणतात की …

अल्येगोच्या २०२५ एआय इन रेवन्यू एनॅबलमेंट रिपोर्टमधून जागतिक स्तरावर महसूल संघटनांमध्ये कृत्रिम बुद्धिमत्तेचा वापर यावर एक अशी क्रांतिकारक माहितीदेखील समोर येते, जी अद्याप दिसत नाही.

Nov. 11, 2025, 1:13 p.m.

IPG ने तृतीय तिमाहीच्या अंदाजांना वाघलं, AI समाकलन…

इंटरपब्लिक ग्रुप (IPG), हे एक अग्रगण्य जागतिक विपणन आणि जाहिरात कंपनी आहे, ज्याने तिसऱ्या तिमाहीच्या निकालांमधील अपेक्षा ओलांडल्या असून मुख्यतः मीडियाविषयक जाहिरातींवर व आरोग्य क्षेत्रातील जोरदार खर्चामुळे हे घडले आहे.

Nov. 11, 2025, 1:13 p.m.

डॅपियरने एआय डेटा मार्केटप्लेस आणि परस्परसंवादी जाहि…

डॅपियर, टेक्सासमधील ऑस्टिन येथे मुख्यालयित असलेली एक इनोव्हेटिव अमेरिकन सॉफ्टवेअर कंपनी आहे, जी कृत्रिम बुद्धिमत्तेत महत्त्वपूर्ण प्रगती करत आहे.

Nov. 11, 2025, 9:49 a.m.

ऑरक्लच्या AI-चलित क्लाउड सेवा प्रगती करत आहेत

ऑरॅकलच्या AI-शक्तीकरण Cloud सेवांचा वेगाने वापर वाढत आहे कारण व्यवसाय अधिक प्रगत AI तंत्रज्ञानाचा वापर करून डेटा विश्लेषण आणि निर्णय घेण्याच्या प्रक्रियेला सुधारित करीत आहेत.

Nov. 11, 2025, 9:20 a.m.

टीएसएमसी ने 18 महिन्यांत सर्वात कमी वृद्धी दर्शवली, A…

टायवानी सेमीकंडक्टर मॅन्युफॅक्चरेिंग कंपनी (TSMC) ने एका वर्षातली सर्वात मंद मासिक महसूल वाढ नोंदवली, ज्यामुळे चिंतेचा विषय बनला की कृत्रिम बुद्धिमत्ता (AI) शेअरच्या वृद्धीला उद्योगाच्या व्यापार मूलभूत गोष्टी पुरेपुर आधार देत नाही.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today