એનવિડિયાનો ફગાટ્ટો: અવાજ માટે જનરેટિવ AIમાં ક્રાંતિ લાવી રહ્યું છે
Brief news summary
Nvidia નું Fugatto એક અદ્યતન ઓડિયો સિન્થેસિસ ટેકનોલોજી છે જે ટેક્સ્ટ પ્રોમ્પ્ટને ધ્વનિયમાટે ફેરવે છે, જો કે તે જાહેર જનતા માટે હજુ ઉપલબ્ધ નથી. ડેમો તેની પ્રભાવશાળી ક્ષમતા દર્શાવે છે જેમ કે અંડરવોટર સ્પીચ અને કૉયરના જેવી સાઇરન જેવા અસર જોડવામાં આવે છે. Fugatto વિકસિત કરવા માટેનો એક મુખ્ય પડકાર એક ડેટાસેટ નમણિયું કરવાનો હતો કે જે જટિલ ઓડિયો-ભાષા ક્રિયાપ્રતિક્રિયાઓને કેદ કરે છે. Nvidia એ વિવિધ ઓડિયો પર્સોના માટે સ્ક્રિપ્ટ્સ બનાવવા માટે ભાષા મોડેલનો ઉપયોગ કરીને આનો સામનો કર્યો, 50,000 કલાકના ડેટાસેટના પરિણામે જે મોડેલને ટ્રેઇન કરવા માટે જરૂરી હતું, જે 2.5 અબજ પૅરામીટરો ધરાવે છે. Fugatto ની એક મુખ્ય વિશેષતા "ComposableART" છે, જેને વપરાશકર્તાઓને પ્રશિક્ષણ ડેટામાંથી લક્ષણો મિશ્રિત કરવાની સક્રિયતા આપે છે જેથી કરીને ઉચ્ચારણ અને ભાવના જેવા ઓડિયો પાસાઓ પર સચોટ નિયંત્રણ મળી શકે. આ ક્ષમતા ભાષણની ભાવનાઓમાં ફેરફાર કરવાની અને સંગીતમાં વોકલ ટ્રૅકને અલગ કરવાની મંજૂરી આપે છે, મૂળભૂત સિન્થેસિસથી આગળ સર્જનાત્મક શક્યતાઓ પ્રદાન કરે છે. Nvidia Fugatto ને સંગીતની પ્રોટોટાઇપિંગ અને ગેમ સ્કોરિંગમાં અવાજની સર્જનાત્મકતા વધારવા માટે એક સાધન તરીકે જોવાનું રહેશે, જે તે પરંપરાગત પદ્ધતિઓને બદલે નું આવરણ નહીં કરશે. કંપની માનતી છે કે Fugatto જેવો AI સાધનો સંગીત સર્જનની ભવિષ્યની દృશ્યાવલીઓને ઊંડું અસર કરી શકે છે.Nvidiaનો નવો "Fugatto" મોડલ જેનરેટિવ AIને વધારાને બદલે સંગીત, અવાજ અને ધ્વનિઓને વિકસિત કરી શકે છે, એવું સૂચવે છે કે તે અગાઉથી અસાધારણ અવાજો પણ બનાવી શકે છે. હજી સુધી જાહેરમાં ઉપલબ્ધ નથી છતાં, વેબસાઇટ પરના ઉદાહરણો તેનો અવાજના ગુણધર્મો સુધારવાની ક્ષમતા દર્શાવે છે, જેમ કે સેક્સોફોનને બાર્કિંગ જેવું અથવા પાણીનાઢમાં બોલાય તેવું કે એમ્બ્યુલન્સ સીરન્સના ચોરસ ફાર્મેશનની ગાયકી. આ વ્યાપક ક્ષમતાની અસરમાં Nvidia Fugattoને એક પ્રકારનું "સ્વિસ આર્મી ચાકુ સ્ઊન્ડ માટે" કહે છે. મુશ્કેલી એક એવા ટ્રેનિંગ ડેટાસેટ તૈયાર કરવામાં છે જે ધ્વનિ અને ભાષા વચ્ચેના અર્થપૂર્ણ સંબંધોને આગાહ કરે છે. Nvidiaના સંશોધકોએ, એક LLM-મૂળિત પિથોન સ્ક્રિપ્ટનો ઉપયોગ કરીને, અઢળક નમુના આધારિત અને મુક્ત-અન્વેષણ સૂચનાઓ બનાવી, જેનો ઉપયોગ અવાજ "વ્યક્તિમૂર્તિઓ"નો વર્ણન કરવા માટે થયો. આ વિવિધ ખોલા સ્ત્રોત અવાજ ડેટાસેટ્સ માટે લાગુ પડ્યું, જેઓને નેચરલ લૅન્ગ્વેજ વર્ણનો સાથે ચિહ્નિત કરી, ભાવના, જાત અને ભાષણની ગુણવત્તાના આધારે . સંશોધકોએ કેટલાક પરિબળોને સ્થાયી રાખી અન્યોને પરિવૃત્તિ કરી મોડલના ભિન્નતા શીખવવા જેમ કે વધુ ખુશાળ ભાષણ અથવા વિવિધ સાધનના અવાજો. ૨. ૫ અબજ પેરેમીટર ધરાવતી મોડલ બનાવવાનું કામ કરવામાં ૨૦ મિલિયન નમૂનાઓ (૫૦, ૦૦૦ કલાકનો અવાજ) સંચાલિત કર્યા પછી, તેમણે Nvidia ટેન્સર કોરનો ઉપયોગ કર્યો. પ્રશિક્ષણની આગળ વઘમાં, Fugattoનું "ComposableART" સિસ્ટમ કસ્ટમાઇઝેબલ અવાદ ઉદ્યોગને મંજૂરી આપે છે.
તે તેનો ડેટાસેટમાંથી લક્ષણો જોડીને નવા, ન સંભળાયેલા અવાજો બનાવે છે, "શરતો મુજબ માર્ગદર્શન"ના ઉપયોગથી અવિશીષ્ઠ સંયોજનો માટે. જ્યારે બધી ઉદ્પન્નો પિચ-નિર્મળ નથી, તો પણ વેરાફેરાના અવાજો, જેમ કે હસતા બાળક જેવું વાગતું વાયોલિન, Fugattoની પરિવર્તનક્ષમ ક્ષમતા દર્શાવે છે. મહત્વપૂર્ણ રીતે, Fugatto અવાજના લક્ષણોને ટ્યુનેબલ સતત તરીકે જોવા છે, બાઇનરી તરીકે નહીં. તે ધ્વનિઓ, જેમ કે એકોસ્ટિક ગિટાર સાથે વહેતું પાણી, સંયોજનથી તુલાત્મકતા બદલવા, અને ભાષણમાં ભાષા અથવા ભાવનાને ગોઠવવા કરે છે. તે ભાષણ લિપિ ભાવનાને બદલવું, વોકલ ટ્રેક અલગ કરવી, અને MIDI સંગીતમાં લક્ષ્યોને વિવિધ વોકલ પ્રદર્શન સાથે બદલવાં કરે છે. Nvidia Fugattoને સ્વયંસાધિત મલ્ટિટાસ્ક લર્નિંગ તરફના પગલાં તરીકે જોવે છે અને ગીત પ્રોટોટાઇપિંગ અને ગતિશીલ વિડિયો રમત સ્કોર્સમાં ઉપયોગીતા ગયો છે. આવા મોડલો અવાજના કલાકારો માટે સાધનો છે, અર્થાત્ પ્રતિનિધિ નહીં. જેમ કે ઉત્પાદક/ગીતલેખક ઇડો ઝમિશલાની કહે છે, ટેકનોલોજી સતત સંગીતને રૂપાંતરિત કરી રહી છે, જે આઇએ દ્વારા સંગીતમાં નવી નવ્ઝીનું કલ્પિત છે.
Watch video about
એનવિડિયાનો ફગાટ્ટો: અવાજ માટે જનરેટિવ AIમાં ક્રાંતિ લાવી રહ્યું છે
Try our premium solution and start getting clients — at no cost to you