एनव्हिडियाचा नवा "फुगाटो" मॉडेल जनरेटिव्ह एआयला संगीत, आवाज आणि ध्वनींना रूपांतरित करून उत्तेजन देते, अगदी पहिल्यांदा ऐकलेले ध्वनी निर्माण करते. अद्याप सार्वजनिकरित्या उपलब्ध नसलेले, वेबसाइटवरील उदाहरणे त्याच्या ऑडिओ लक्षणे बदलण्याच्या क्षमतेचे प्रदर्शन करतात, सॅक्सोफोनला भुंकण्यासारखे नियंत्रणापासून ते पाण्याखालचा संवाद किंवा रुग्णवाहिका सायरन्सच्या गायनापर्यंत. या विस्तृत क्षमतेने एनव्हिडियाला फुगाटोला "स्विस आर्मी नाइफ फॉर साउंड" असे वर्णन करण्यास प्रवृत्त केले आहे. चुनौती म्हणजे एक प्रशिक्षण डेटा सेट तयार करणे जे ऑडिओ आणि भाषेतील अर्थपूर्ण नाते दाखवते. एनव्हिडियाच्या संशोधकांनी, LLM-जनरेट केलेल्या प्याथन स्क्रिप्टचा वापर करून, असंख्य टेम्प्लेट-आधारित आणि मुक्त-आकाराच्या सूचना तयार केल्या, जेणेकरून ऑडिओ "व्यक्तिमत्वे" वर्णन करता येतील. हे विविध प्रकारच्या मुक्त स्रोत ऑडिओ डेटा सेट्सना लागू केले गेले आहे, त्यांना स्वाभाविक भाषा वर्णने दिली जाऊन भावना, लिंग, आणि भाषणाचा गुण यांनी मोजले. संशोधकांनी काही घटक स्थिर ठेवले तर इतर बदलून मॉडेलला अधिक आनंदी भाषण किंवा विविध वाद्य ध्वनी शिकवले. २० दशलक्ष नमुने (५०, ००० तास ऑडिओ) प्रक्रियेनंतर, त्यांनी एनव्हिडिया टेन्सर कोरचा वापर करून २. ५ अब्ज पॅरामीटर्ससह मॉडेल तयार केले, जे विश्वासार्ह ऑडिओ गुणवत्ता स्कोर्स दर्शवते. प्रशिक्षणाच्या पलीकडे, फुगाटोच्या "कंपोजेबलएआरटी" प्रणालीत अनुकूलनक्षम ऑडिओ उत्पादनाची सुविधा आहे.
हे त्याच्या डेटासेटमधून विशेषता संयोजित करते आणि "Conditional Guidance" चा वापर करून नवीन, अनुपस्थित ध्वनी उत्पन्न करते. सर्व उत्पादन योग्य सुरांवर नसले तरी ध्वनींची विविधता, जसे की व्हायोलिन एक हसणाऱ्या बाळासारखे वाटते, फुगाटोच्या रूपांतरित क्षमतेचा अनुभव देते. महत्त्वाचे म्हणजे, फुगाटो ऑडिओ वैशिष्ट्यांना बायनरीजऐवजी ट्यून करण्यायोग्य सतत मानतो. ते आवाज कम्बाईन करते, जसे की ध्वनिक गिटार सोबत पाण्याचा प्रवाह जोडणे, आणि भाषणात उच्चार किंवा भावना समायोजित करते. ते म्हटलेले मजकूर बदलण्यासाठी भावना बदलणे, व्होकल ट्रॅक विलग करणे, आणि MIDI संगीतामध्ये नोट्स बदलणे अशा कार्यांना साध्य करते. एनव्हिडिया फुगाटोल unsupervised multitask शिकण्याच्या दिशेने एक पाऊल म्हणून बघते आणि गाण्याच्या प्रोटोटायपिंग आणि गतिशील व्हिडिओ गेम स्कोअरमध्ये अनुप्रयोगाचा विचार करते. अशा मॉडेल्स म्हणजे ऑडिओ कलाकारांसाठी साधने आहेत, पर्याय नाहीत. निर्माता/गीतकार इदो झ्मिस्लानी असे सांगतात, तंत्रज्ञान सतत संगीतात परिवर्तन घडवते, आणि एआय संगीत नवकल्पनांमधील एक नवीन अध्याय लिहीत आहे.
Nvidiaचा फुगाटो: ध्वनीसाठी जनरेटिव्ह AI मध्ये क्रांती घडताना
पब्लिक सिटीझन, सार्वजनिक हितांचे रक्षण करण्यासाठी समर्पित एक प्रमुख देखरेखी करणारा संस्था, ने तातडीने OpenAI ला त्याच्या AI-सक्षम व्हिडिओ ऍप Sora 2 ला मागीलकरण्याची विनंती केली आहे, कारण खोलफेक तंत्रज्ञानमुळे गंभीर धोके निर्माण होऊ शकतात.
या एम्पिसोडमध्ये मार्केटिंग AI स्पार्ककास्टमध्ये Aby Varma यांचा प्रवेश आहे, जे Spark Novus चे संस्थापक आहेत आणि मार्केटिंग लीडर्सना जबाबदारीने AI स्वीकारण्यास मदत करणारे रणनीतिक भागीदार आहेत.
अल्येगोच्या २०२५ एआय इन रेवन्यू एनॅबलमेंट रिपोर्टमधून जागतिक स्तरावर महसूल संघटनांमध्ये कृत्रिम बुद्धिमत्तेचा वापर यावर एक अशी क्रांतिकारक माहितीदेखील समोर येते, जी अद्याप दिसत नाही.
इंटरपब्लिक ग्रुप (IPG), हे एक अग्रगण्य जागतिक विपणन आणि जाहिरात कंपनी आहे, ज्याने तिसऱ्या तिमाहीच्या निकालांमधील अपेक्षा ओलांडल्या असून मुख्यतः मीडियाविषयक जाहिरातींवर व आरोग्य क्षेत्रातील जोरदार खर्चामुळे हे घडले आहे.
डॅपियर, टेक्सासमधील ऑस्टिन येथे मुख्यालयित असलेली एक इनोव्हेटिव अमेरिकन सॉफ्टवेअर कंपनी आहे, जी कृत्रिम बुद्धिमत्तेत महत्त्वपूर्ण प्रगती करत आहे.
ऑरॅकलच्या AI-शक्तीकरण Cloud सेवांचा वेगाने वापर वाढत आहे कारण व्यवसाय अधिक प्रगत AI तंत्रज्ञानाचा वापर करून डेटा विश्लेषण आणि निर्णय घेण्याच्या प्रक्रियेला सुधारित करीत आहेत.
टायवानी सेमीकंडक्टर मॅन्युफॅक्चरेिंग कंपनी (TSMC) ने एका वर्षातली सर्वात मंद मासिक महसूल वाढ नोंदवली, ज्यामुळे चिंतेचा विषय बनला की कृत्रिम बुद्धिमत्ता (AI) शेअरच्या वृद्धीला उद्योगाच्या व्यापार मूलभूत गोष्टी पुरेपुर आधार देत नाही.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today