Nvidia का नया "Fugatto" मॉडल जेनरेटिव AI को उन्नत करता है, जिससे संगीत, आवाज़ और ध्वनियों को बदलकर पहले अनसुनी ध्वनियों का निर्माण किया जा सकता है। अभी तक सार्वजनिक रूप से उपलब्ध नहीं है, लेकिन वेबसाइट पर दिए गए उदाहरण इसकी क्षमता दिखाते हैं, जैसे सैक्सोफोन को भौंकने जैसा बनाना, पानी के नीचे की बातें, या एम्बुलेंस सायरन का गाना। इस व्यापक क्षमता के कारण, Nvidia ने Fugatto को ध्वनि के लिए "स्विस आर्मी चाकू" कहा है। चुनौती इस बात में है कि एक प्रशिक्षण डेटा सेट तैयार करना जो ऑडियो और भाषा के बीच महत्वपूर्ण संबंधों को उजागर करे। Nvidia के शोधकर्ताओं ने, LLM-जनरेटेड Python स्क्रिप्ट का उपयोग करके, ऑडियो "पर्सोनास" का वर्णन करने के लिए कई टेम्पलेट-आधारित और मुक्त-रूप निर्देश बनाए। इन्हें ओपन-सोर्स ऑडियो डेटासेट की विस्तृत श्रृंखला पर लागू किया गया, जिन्हें भाव, लिंग, और भाषण गुणवत्ता द्वारा मापांकित प्राकृतिक भाषा विवरण के साथ एनोटेट किया गया। शोधकर्ताओं ने कुछ कारकों को स्थिर रखते हुए अन्य को बदलते हुए मॉडल को खुशी से भरी हुई या विभिन्न उपकरणों की ध्वनियों जैसे भेद पर शिक्षित किया। 20 मिलियन नमूनों (50,000 घंटे के ऑडियो) को प्रोसेस करने के बाद, उन्होंने Nvidia टेन्सर कोर का उपयोग करके 2
जब AI उपयोग मामलों को लागू करते हैं, तो संस्थानों को अक्सर यह तय करना पड़ता है कि वे अपने डेटा स्रोतों को अपनाए गए मॉडलों से कैसे जोड़ें। विभिन्न फ्रेमवर्क, जैसे कि LangChain, डेटाबेस एकीकरण की सुविधा प्रदान करते हैं, लेकिन डेवलपर्स को हर बार नए डेटा स्रोतों से मॉडल्स को जोड़ने के लिए कोड लिखना पड़ता है। एन्थ्रोपिक का उद्देश्य डेटा एकीकरण के इस दृष्टिकोण को एक मानक में बदलना है। एन्थ्रोपिक ने मॉडल कॉन्टेक्स्ट प्रोटोकॉल (MCP) को एक ओपन-सोर्स समाधान के रूप में प्रस्तुत किया है, जो AI उपयोग मामलों के लिए डेटा स्रोतों को जोड़ने का एक मानकीकृत तरीका प्रदान करता है। कंपनी ने एक ब्लॉग पोस्ट में घोषणा की कि MCP विभिन्न डेटा स्रोतों के साथ AI सिस्टम को जोड़ने के लिए एक "यूनिवर्सल, ओपन स्टैंडर्ड" के रूप में काम करेगा। उद्देश्य यह है कि MCP जैसे मॉडल्स को डेटाबेस को सीधे एक्सेस करने में सक्षम करे। एलेक्स अल्बर्ट, एन्थ्रोपिक में क्लॉड रिलेशन्स के प्रमुख, ने X पर उल्लेख किया कि कंपनी का दृष्टिकोण "AI को किसी भी डेटा स्रोत से जोड़ने की दुनिया निर्मित करना" है, जिसमें MCP एक "यूनिवर्सल ट्रांसलेटर" के रूप में काम करेगा। MCP की एक प्रमुख शक्ति इसके द्वारा स्थानीय संसाधनों (जैसे डेटाबेस, फाइल्स, और सेवाएं) और दूरस्थ संसाधनों (जैसे स्लैक या गिटहब के लिए API) को एक ही प्रोटोकॉल का उपयोग करके प्रबंधित करने की क्षमता है, अल्बर्ट ने समझाया। डेटा एकीकरण के लिए एक मानकीकृत विधि न केवल डेवलपर्स के लिए सूचना के लिए बड़े भाषा मॉडल्स (LLMs) का निर्देशन करना सरल बनाती है, बल्कि उन उद्यमों के लिए डेटा पुनर्प्राप्ति चुनौतियों को भी हल करती है जो AI एजेंट्स का निर्माण करते हैं। चूंकि MCP ओपन-सोर्स है, एन्थ्रोपिक इसके कनेक्टर्स और कार्यान्वयन के रिपॉजिटरी में योगदान देने को प्रोत्साहित करता है। वर्तमान में, मॉडलों को डेटा स्रोतों से जोड़ने के लिए कोई यूनिवर्सल स्टैंडर्ड नहीं है, इसलिए संस्थान और प्रदाता इन निर्णयों के लिए जिम्मेदार होते हैं। डेवलपर्स आमतौर पर विशिष्ट पाइथन कोड का सहारा लेते हैं या LLMs को डेटाबेस से जोड़ने के लिए LangChain का उपयोग करते हैं। चूंकि प्रत्येक LLM थोड़ा अलग तरीके से काम करता है, प्रत्येक कनेक्शन के लिए अलग कोड की आवश्यकता होती है, जिससे समान डेटाबेस तक पहुँचते हुए मॉडल्स खंडित हो जाते हैं। कुछ कंपनियाँ अपने डेटाबेस को इस तरह से संशोधित करती हैं कि वे वेक्टर एम्बेड्डिंग्स का निर्माण कर सकें जिनसे LLMs जुड़ सकें। उदाहरण के लिए, माइक्रोसॉफ्ट Azure SQL के साथ फैब्रिक को एकीकृत करता है, जबकि छोटी कंपनियाँ जैसे Fastn डेटा स्रोतों को जोड़ने के वैकल्पिक तरीके प्रदान करती हैं। एन्थ्रोपिक MCP को क्लॉड से परे मॉडल और डेटा स्रोतों की आपसी कार्य सामर्थ्य को बढ़ावा देने के लिए देखता है। "MCP एक ओपन स्टैंडर्ड है जो डेवलपर्स को उनके डेटा स्रोतों और AI-संचालित उपकरणों के बीच सुरक्षित, द्विपक्षीय कनेक्शन स्थापित करने की अनुमति देता है। सेटअप सरल है: डेवलपर्स या तो MCP सर्वर्स के माध्यम से अपने डेटा को उपलब्ध करा सकते हैं या AI एप्लिकेशन (MCP क्लाइंट) विकसित कर सकते हैं जो इन सर्वर्स से जुड़ते हैं," एन्थ्रोपिक ने ब्लॉग पोस्ट में कहा। MCP की घोषणा को सोशल मीडिया पर सकारात्मक प्रतिक्रिया मिली, विशेष रूप से इसके ओपन-सोर्स रिलीज़ के लिए, हालांकि कुछ उपयोगकर्ताओं ने प्लेटफॉर्म्स जैसे Hacker News पर MCP जैसे मानक के मूल्य के बारे में संदेह व्यक्त किया। वर्तमान में, MCP विशेष रूप से क्लॉड मॉडल्स के परिवार के लिए एक मानक है। फिर भी, एन्थ्रोपिक ने गूगल ड्राइव, स्लैक, गिटहब, गिट, पोस्टग्रेस, और पपेटियर के लिए प्री-बिल्ट MCP सर्वर्स जारी किए हैं। वेंचरबीट ने एन्थ्रोपिक से और टिप्पणी के लिए संपर्क किया। MCP के शुरुआती अपनाने वालों में Block और Apollo शामिल हैं। प्रदाता जैसे Zed, Replit, Sourcegraph, और Codeium AI एजेंट्स विकसित कर रहे हैं जो डेटा स्रोतों से जानकारी प्राप्त करने के लिए MCP का उपयोग करते हैं। MCP में रुचि रखने वाले डेवलपर्स क्लॉड डेस्कटॉप ऐप के माध्यम से प्री-बिल्ट MCP सर्वर्स को इंस्टॉल करके प्रोटोकॉल को तुरंत उपयोग कर सकते हैं। उद्यम भी पायथन या TypeScript का उपयोग करके अपना MCP सर्वर बना सकते हैं।
Nvidia ने अपना AI म्यूजिक एडिटर, Fugatto, पेश किया है, जो अब तक के अनसुने ध्वनियाँ उत्पन्न कर सकता है, जैसे कि एक ट्रंपेट जो म्याऊ जैसी आवाज़ निकालता है। यह टूल टेक्स्ट और ऑडियो इनपुट का उपयोग करके म्यूजिक, ध्वनि, और भाषण बनाता है, जिन पर इसे विशेष रूप से प्रशिक्षित नहीं किया गया है। नीचे दिए गए वीडियो में दिखाया गया है कि Fugatto कैसे असामान्य संकेतों से संगीत की रचना कर सकता है, जैसे "सैक्सोफोन की गूंजती ध्वनि बनाएं, फिर इलेक्ट्रॉनिक संगीत जिसमें कुत्तों की भौंकने की आवाज हो।" Nvidia ने ऐसे उदाहरण प्रस्तुत किए हैं जहां Fugatto अनोखे ध्वनि प्रभाव उत्पन्न करता है, जैसे "गहरी, गड़गड़ाहट वाली बास धड़कनें उच्च-स्वर डिजिटल चिर्प्स के साथ, जैसे विशाल सचेत मशीन के जागने की आवाज़।" यह यहां तक कि आवाज के ध्वनियों को उसका उच्चारण या लहजा बदलकर गुस्से में या शांत बनाता है। संगीत संपादन के लिए, Fugatto वोकल्स को अलग कर सकता है, वाद्य यंत्र जोड़ सकता है, और पियानो को ओपेरा गायक के साथ बदल कर धुन को परिवर्तित कर सकता है। इस घोषणा के साथ दिए गए पेपर में Fugatto को प्रशिक्षित करने के लिए उपयोग किए गए व्यापक डेटासेट की सूची दी गई है, जिसमें BBC ध्वनि प्रभाव भी शामिल हैं। हालांकि कई AI ऑडियो टूल मौजूद हैं, जैसे Stability AI, OpenAI, Google DeepMind, ElevenLabs, और Adobe के, कोई भी बिल्कुल नई ध्वनियाँ बनाने का दावा नहीं करता। कुछ AI स्टार्टअप्स को इसी प्रकार के टूल्स पर कॉपीराइट मुकदमों का सामना करना पड़ा है, और एक रिपोर्ट में यह बताया गया कि Nvidia और अन्य ने AI मॉडलों को प्रशिक्षित करने के लिए YouTube सबटाइटल्स का उपयोग किया। Fugatto को विकसित करने के लिए, Nvidia ने लाखों ऑडियो सैंपल का डेटासेट संकलित किया। उन्होंने मॉडल की कार्यक्षमता को बढ़ाने के लिए निर्देश तैयार किए, जिससे सटीकता में वृद्धि हुई और बिना अतिरिक्त डेटा के नए कार्यों को सक्षम किया जा सका। Nvidia ने अभी तक इस उपकरण की सार्वजनिक रिलीज की तारीख की घोषणा नहीं की है।
एमआईटी के वैज्ञानिकों ने एक विधि विकसित की है जो निर्मित कृत्रिम बुद्धिमत्ता (जनरेटिव एआई) को भौतिक-आधारित बाढ़ मॉडल के साथ जोड़कर उपग्रह छवियां तैयार करती है, जो संभावित तूफान के बाद की बाढ़ को दर्शाती हैं। यह विधि दृश्य रूप से पूर्वानुमान लगाती है कि गंभीर तूफानों के बाद क्षेत्र कैसे दिख सकते हैं, जिससे निवासियों को यह निर्णय लेने में मदद मिलती है कि उन्हें वहां से निकलना चाहिए या नहीं। एक परीक्षण के रूप में, इस विधि को ह्यूस्टन पर लागू किया गया, जिससे तूफान हरिकेन हार्वी जैसे तूफान के संभावित बाढ़ की वास्तविक छवियां उत्पन्न हुईं। ये एआई-संवर्धित छवियां भौतिक मॉडल के बिना बनाई गई छवियों की तुलना में अधिक सटीक साबित हुईं, जिन्होंने गलती से असंभव क्षेत्रों में बाढ़ को दर्शाया। "अर्थ इंटेलिजेंस इंजन" नामक यह तकनीक पारंपरिक रंग-कोडित मानचित्रों की तुलना में अधिक स्पर्शनीय दृश्य प्रदान करके सार्वजनिक तैयारी को बढ़ाने का लक्ष्य रखती है। यह प्रणाली वास्तविक छवि निर्माण के लिए जनरेटिव एडवर्सेरियल नेटवर्क्स (GANs) को एकीकृत करती है और जोखिम-संवेदनशील परिदृश्यों में विश्वसनीय डेटा के महत्व पर जोर देती है। परीक्षणों ने दिखाया कि केवल GANs का उपयोग "भ्रम" या त्रुटियाँ उत्पन्न कर सकता है, जिसके कारण भौतिक-आधारित मॉडलों का एकीकरण विश्वसनीयता सुधारने के लिए किया गया। यह शोध, जो IEEE ट्रांजेक्शन्स ऑन जियोसाइंस एंड रिमोट सेंसिंग में प्रकाशित हुआ, आपदा की तैयारी के लिए एआई और भौतिकी के एक आशाजनक संगम को दर्शाता है, विभिन्न संस्थाओं के समर्थन के साथ जिनमें नासा और गूगल क्लाउड शामिल हैं।
न्यूयॉर्क सिटी में स्थित माउंट सिनाई हेल्थ सिस्टम ने हेमिल्टन और एमाबेल जेम्स सेंटर फॉर आर्टिफिशियल इंटेलिजेंस एंड ह्यूमन हेल्थ का उद्घाटन किया है, जिसका उद्देश्य AI प्रगति के माध्यम से स्वास्थ्य सेवा वितरण को बेहतर बनाना है। यह अभिनव सुविधा, माउंट सिनाई अस्पताल के मैनहट्टन परिसर में स्थित है, जो डेटा विज्ञान और जीनोमिक्स के साथ AI को एकीकृत करेगी। यह केंद्र टोनी और एमाबेल जेम्स के दान से समर्थित है और 65,000 वर्ग फीट के पुनर्निर्मित भवन में स्थित है। यहाँ 40 प्रमुख अन्वेषक, 250 स्नातक छात्र और सहायक कर्मचारी सम्मिलित होंगे। केंद्र का डिज़ाइन डायग्नोस्टिक्स और उपचार में क्रांतिकारी परिवर्तन लाने और मानव स्वास्थ्य में प्रगति करने के लिए किया गया है। इसमें विंडराइच डिपार्टमेंट ऑफ AI एंड ह्यूमन हेल्थ शामिल है, जो माउंट सिनाई के स्वास्थ्य सेवा प्रणाली में AI को समाहित करने पर केंद्रित है; हासो प्लैटनर इंस्टीट्यूट फॉर डिजिटल हेल्थ, जो डेटा विज्ञान और डिजिटल इंजीनियरिंग क्षमताओं को बढ़ाता है; और जेनोमिक हेल्थ इंस्टीट्यूट, जो रोग की रोकथाम के लिए जीनोमिक खोजों को आगे बढ़ाता है। माउंट सिनाई की AI पहल में सटीक इमेजिंग और नैनोमेडिसिन रिसर्च के लिए बायोमेडिकल इंजीनियरिंग और इमेजिंग इंस्टीट्यूट, तथा पर्सनलाइज़्ड मेडिसिन इंस्टीट्यूट शामिल हैं, जिसने प्रिसिजन मेडिसिन को आगे बढ़ाने के लिए एक मिलियन जीनोम को अनुक्रमित करने का प्रोजेक्ट शुरू किया है। माउंट सिनाई का विंडराइच डिपार्टमेंट स्वास्थ्य में AI को आगे बढ़ाने के लिए समर्पित है, हियर्स्ट हेल्थ प्राइज़ द्वारा इसके न्यूट्रीस्कैन AI टूल के लिए मान्यता प्राप्त, जो अस्पताल में भर्ती मरीजों में कुपोषण निदान को सुधारता है। कुल मिलाकर, यह केंद्र अनुसंधान और डेटा को एकीकृत करके स्वास्थ्य सेवा में नवाचार को बढ़ावा देगा, रोग उपचार और रोकथाम में सफलता की खोज करने का लक्ष्य रखेगा।
रिया चेरुवु अपनी शैक्षिक यात्रा में लगातार आगे रही हैं, 11 वर्ष की आयु में हाई स्कूल से स्नातक की और हार्वर्ड की सबसे कम उम्र की स्नातकों में से एक बनीं। उनकी शिक्षा, विशेषकर न्यूरोबायोलॉजी और कंप्यूटर विज्ञान में, ने 14 वर्ष की आयु में इंटेल की एथिक्स टीम में भूमिका निभाने का मार्ग प्रशस्त किया, AI के मुख्यधारा में आने से कहीं पहले। आज, 20 वर्ष की आयु में, वे जिम्मेदार AI विकास में एक अग्रणी शख्सियत हैं, पेटेंट अर्जित कर चुकी हैं और डेटा विज्ञान में मास्टर डिग्री प्राप्त कर चुकी हैं। इंटेल में, चेरुवु AI प्रचारक के रूप में कार्य करती हैं, जहां वे "AI फॉर गुड" पर ध्यान केंद्रित करती हैं, नैतिक AI विकास की वकालत करती हैं। उनके काम में गोपनीयता, सहमति, और पूर्वाग्रह जैसी समस्याओं को संबोधित करना शामिल है, और वे इस बात पर जोर देती हैं कि युवा पीढ़ियों को AI प्रौद्योगिकी में योगदान देना चाहिए। अपनी मां के साथ हुई चर्चाओं से प्रेरित होकर, जिनके पास मेटाफ़िज़िक्स और दर्शनशास्त्र में पीएचडी है, चेरुवु चेतना और मानव-AI संबंध के प्रश्नों से जूझती हैं। चेरुवु इस बात पर ज़ोर देती हैं कि AI को उपयोगकर्ताओं को सशक्त बनाना चाहिए, व्यक्तिगत डेटा पर नियंत्रण और पूर्वाग्रहों को संबोधित करने की क्षमता आवश्यक है। वे व्यावहारिक, मानव-केंद्रित AI की वकालत करती हैं जो भरोसा बनाता है और उपयोगकर्ता अनुभव को बेहतर बनाता है, और फ़ेई फ़ेई ली और येजिन चोई जैसे उद्योग के नेताओं से प्रेरणा लेती हैं। एक सार्वजनिक वक्ता और संचारकर्ता के रूप में, चेरुवु AI के इर्द-गिर्द के प्रचार को अर्थपूर्ण प्रभाव और चुनौतियों के बारे में पारदर्शिता के साथ संभालती हैं। वे लंबे समय से उद्योग विशेषज्ञों के दृष्टिकोण को नई प्रविष्टियों की तुलना में अधिक महत्व देती हैं और युवा प्रौद्योगिकीविदों की AI विकास को आकार देने की बड़ी संभावनाएँ देखती हैं। सुलभ AI शिक्षा की आवश्यकता अत्यंत महत्वपूर्ण है, और चेरुवु इंटेल के डिजिटल रेडीनेस प्रोग्राम जैसी पहलों में हिस्सा लेती हैं, जिसका उद्देश्य AI शिक्षा को लोकतांत्रिक बनाना और डिजिटल साक्षरता को बढ़ावा देना है। समावेशी और व्यावहारिक दृष्टिकोण को बढ़ावा देकर, चेरुवु मानती हैं कि प्रौद्योगिकी एक सकारात्मक शक्ति हो सकती है, जो सबके लिए सुलभ है।
लुईस प्लंकट, जो नॉरविच से हैं, उनकी जिंदगी एआई उपकरणों के कारण क्रांतिकारी रूप से बदल गई है, क्योंकि उन्हें स्टारगर्डt बीमारी है, जो एक आनुवंशिक स्थिति है जो दृष्टि को घटाती है। वह अलार्म सेट करने जैसी चीजों के लिए एलेक्सा, गूगल होम और सिरी जैसे डिजिटल सहायक उपकरणों का उपयोग करती हैं, लेकिन उन्हें "बी माय एआई" ऐप विशेष रूप से सहायक लगता है। यह ऐप ChatGPT का उपयोग करके चित्रों का मौखिक वर्णन करता है, जिससे श्रीमती प्लंकट को सार्वजनिक शौचालयों की पहचान करने और खाद्य लेबल या पत्र पढ़ने में सहायता मिलती है, बिना मानव सहायता की आवश्यकता के। हालांकि, वह नोट करती हैं कि एआई विवरण कभी-कभी अनावश्यक विवरण प्रदान कर सकते हैं। "बी माय एआई", जिसे डेनिश कंपनी "बी माय आईज़" द्वारा विकसित किया गया है, पहले नेत्रहीन उपयोगकर्ताओं को मनुष्यों की सहायता से उनके आसपास के क्षेत्र का वर्णन करने के लिए मानव स्वयंसेवकों के साथ जोड़ता था। अब, इसके 600,000 में से कुछ उपयोगकर्ता एआई को चुनते हैं, जैसे कि व्हाट्सएप छवियों की व्याख्या करने के लिए। "बी माय आईज़" के सीटीओ, जसपर हविरिंग हेनरिक्सन, कहते हैं कि ऐप के भविष्य के विकास में संभवतः वास्तविक समय में उपयोगकर्ताओं के पर्यावरण का वर्णन करने के लिए लाइव वीडियो स्ट्रीमिंग शामिल हो सकती है। हालांकि उपयोगकर्ता "बी माय आईज़" को मुफ्त में उपयोग कर सकते हैं, कंपनी एक पेड निर्देशिका सेवा से राजस्व अर्जित करती है जिसका उपयोग कंपनियां अंधे समुदाय को जानकारी देने के लिए करती हैं। बावजूद इसके कि एआई की बढ़ती उपयोगिता, हेनरिक्सन मानव संपर्क की निरंतर आवश्यकता पर जोर देते हैं, यह बताते हुए कि वृद्ध लोग, जो अक्सर दृष्टि का नुकसान झेलते हैं, इस तकनीक को जटिल पा सकते हैं। नेत्रहीनों के लिए अन्य नवीन उपकरणों में "वी वॉक" शामिल है, जो एक एआई संचालित छड़ी है जो बाधाओं का पता लगाती है और नेविगेशन और सार्वजनिक परिवहन अपडेट प्रदान करती है। यह छड़ी एक स्मार्टफोन ऐप से जुड़ती है, जिससे उपयोगकर्ता 3,000 से अधिक शहरों में आस-पास के कैफे जैसे रुचिकर स्थानों को खोज सकते हैं। प्रोडक्ट मैनेजर गमज़े सोफुओग्लू, जो स्वयं इस छड़ी का उपयोग करती हैं, इसे दृष्टिहीन और कम दृष्टि वाले व्यक्तियों के लिए स्वतंत्रता प्रदान करने का साधन बताती हैं।
- 1