lang icon En
March 13, 2025, 9:41 p.m.
3512

Sesame lansira model CSM-1B za naprednog glasovnog asistenta Mayu.

Brief news summary

Sesame, koji su osnovali Brendan Iribe iz Oculus-a, predstavio je svoj model AI glasovnog asistenta, CSM-1B. Ovaj model ima 1 milijardu parametara i licenciran je pod Apache 2.0 za komercijalne aplikacije, sa ograničenim restrikcijama. CSM-1B koristi rezidualnu vektorsku kvantizaciju (RVQ) za kodiranje zvuka, pozicionirajući se među vodeće AI audio tehnologije poput Googleove SoundStream. Razvijen na Meta-inoj Llama platformi, model pokazuje audio dekoder koji generiše raznolike vokale, iako nije dizajniran za replikaciju glasa. Njegove performanse na jezicima koji nisu engleski mogu biti ograničene zbog obima podataka korišćenih pri obuci. Osim toga, ima minimalne zaštite protiv zloupotrebe, oslanjajući se prvenstveno na kodeks časti kako bi se obeshrabrile štetne prakse, uključujući nedozvoljeno kloniranje glasa. Sesame-ovi glasovni asistenti, Maya i Miles, prepoznati su po svojim prirodnim karakteristikama govora. Podržani od investitora kao što je Andreessen Horowitz, kompanija takođe istražuje razvoj AI naočara koje integrišu svoju glasovnu tehnologiju. Ipak, pojavili su se strahovi oko potencijala za prevaru i zloupotrebu kloniranja glasova pomoću AI, kako su istaknuli nedavni izvještaji potrošača.

AI kompanija Sesame je predstavila osnovni model koji pokreće Mayu, izuzetno realnu glasovnu asistenticu. Ovaj model, koji se sastoji od 1 milijarde parametara (gdje "parametri" označavaju različite komponente modela), objavljen je pod Apache 2. 0 licencom, što omogućava komercijalnu upotrebu s minimalnim ograničenjima. Nazvan CSM-1B, model proizvodi "RVQ audio kodove" iz tekstualnih i audio ulaza, prema opisu Sesame na platformi za razvoj AI-a Hugging Face. RVQ označava "rezidualnu vektorsku kvantizaciju", metodu koja se koristi za kodiranje zvuka u diskretne tokena poznate kao kodovi. Ova tehnika se koristi u raznim savremenim AI audio tehnologijama, uključujući Googleov SoundStream i Metin Encodec. CSM-1B je izgrađen na modelu iz Meta-ine Llama porodice i uključuje komponentu audio "dekoder". Prema Sesame, fino podešena verzija CSM-a pokreće Mayu. U Hugging Face i GitHub repozitorijima CSM-1B, Sesame navodi: "Model koji je ovdje otvoren je osnovni generacijski model. Može proizvesti razne glasove, ali nije fino podešen za nijedan specifičan glas.

[. . . ] Model ima neku sposobnost za jezike koji nisu engleski zbog kontaminacije podacima u skupu za obuku, ali se očekuje da će njegov učinak biti suboptimalan. " Još uvijek nije jasno koje je podatke Sesame koristio za obuku CSM-1B, jer kompanija nije otkrila te informacije. Važno je napomenuti da model nema značajne sigurnosne mjere. Sesame se oslanja na čestitu praksu, potičući programere i korisnike da se suzdrže od korištenja modela za imitaciju nečijeg glasa bez odobrenja, stvaranje obmanjujućih materijala poput lažnih vijesti, ili uključivanje u štetne ili zlonamjerne aktivnosti. Testirao sam demo na Hugging Face-u, a oponašanje mog glasa trajalo je manje od minute. Nakon toga, generisanje govora o različitim temama, uključujući sporne kao što su izbori i ruska propaganda, bilo je jednostavno. Consumer Reports nedavno su upozorili da mnogi popularni alati za kloniranje glasa na bazi AI-a dostupni danas nemaju "smislenih" zaštita protiv prevare ili zloupotrebe. Sesame, koju su osnovali co-kreator Oculus-a Brendan Iribe, dobila je značajnu pažnju krajem februara zbog svoje tehnologije asistenta, koja gotovo navigira neobičnu dolinu. Maya i drugi Sesame-ov asistent, Miles, dišu, pokazuju govorne disfluencije i mogu biti prekinuti dok govore, slično OpenAI-ovom režimu glasa. Kompanija je osigurala neotkrivenu investiciju od Andreessen Horowitz, Spark Capital i Matrix Partners. Pored razvoja tehnologije glasovnog asistenta, Sesame prototipira AI naočale "namijenjene za cjelodnevno nošenje" koje će koristiti svoje vlasničke modele.


Watch video about

Sesame lansira model CSM-1B za naprednog glasovnog asistenta Mayu.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today