Společnost AI Sesame představila základní model, který pohání Mayu, působivě realistického hlasového asistenta. Tento model, skládající se z 1 miliardy parametrů (kde „parametry“ odkazují na jednotlivé komponenty modelu), je uvolněn pod licencí Apache 2. 0, což umožňuje komerční využití s minimálními omezeními. Pojmenovaný CSM-1B, model produkuje „RVQ audio kódy“ z textových i audio vstupů, jak popisuje Sesame na platformě pro vývoj AI Hugging Face. RVQ znamená „kvantizaci reziduálních vektorů“, což je metoda používaná kódování zvuku do diskrétních tokenů známých jako kódy. Tato technika je využívána v různých současných AI audio technologiích, včetně Google SoundStream a Meta Encodec. CSM-1B je postaven na modelu z rodiny Meta Llama a zahrnuje komponentu „dekodéru“ pro audio. Podle Sesamu je jemně doladěná verze CSM základem Mayy. V repozitářích CSM-1B na Hugging Face a GitHubu, Sesame uvádí: „Model, který je zde uvolněn jako open-source, je základním generačním modelem. Může produkovat různé hlasy, ale nebyl jemně doladěn na žádný konkrétní hlas.
[…] Model má určité schopnosti pro neanglické jazyky díky kontaminaci dat v tréninkovém souboru, ale jeho výkon se očekává jako suboptimální. “ Zůstává nejasné, jaká data Sesame použila k trénování CSM-1B, protože společnost tyto informace nezveřejnila. Je důležité poznamenat, že model postrádá podstatné zabezpečení. Sesame se spoléhá na poctivý systém, vyzývající vývojáře a uživatele, aby se zdrželi používání modelu k napodobování něčího hlasu bez povolení, vytváření zavádějícího materiálu, jako jsou falešné zprávy, nebo zapojení do škodlivých či zlomyslných aktivit. Testoval jsem demo na Hugging Face a napodobování mého hlasu trvalo méně než minutu. Poté bylo jednoduše generovat řeč na různá témata, včetně kontroverzních, jako jsou volby a ruská propaganda. Consumer Reports nedávno varovaly, že mnoho populárních nástrojů pro klonování hlasu založených na AI, které jsou dnes k dispozici, postrádá „smysluplné“ ochrany proti podvodům nebo zneužití. Sesame, kterou spoluzaložil Brendan Iribe, jeden z tvůrců Oculus, získala značnou pozornost na konci února za svou technologii asistenta, která se téměř dostává na hranici uncanny valley. Maya a další asistent Sesame, Miles, dýchají, vykazují řečové dysfluencí a mohou být přerušeni při mluvení, podobně jako Voice Mode od OpenAI. Společnost získala nezveřejněná investice od Andreessen Horowitz, Spark Capital a Matrix Partners. Kromě vývoje technologie hlasového asistenta, Sesame prototypuje AI brýle „určené k celodennímu nošení“, které budou využívat její proprietární modely.
Sesame uvádí model CSM-1B pro pokročilého hlasového asistenta Mayu.
Rádi bychom se dozvěděli více o tom, jak nedávné změny ve vyhledávání na internetu, podnícené nárůstem umělé inteligence, ovlivnily váš podnik.
Googleův Danny Sullivan poskytl radu SEO specialistům, kteří jednají s klienty dychtivými po aktualizacích strategií SEO v souvislosti s AI.
Uprostřed rychlého pokroku v technologiích umělé inteligence jsou globální dodavatelské řetězce pro klíčové komponenty pod stále větším tlakem, zejména v oblasti dodávek modulů AI čipů, nezbytných pro pohánění pokročilých aplikací AI.
iHeartMedia se spojila s Viant, aby představila programatickou reklamu napříč svými streamovacími audio službami, vysílacím rádiem a podcasty.
Nvidia nedávno oznámila výrazné rozšíření svých iniciativ v oblasti open source, což představuje významný milník v technologickém průmyslu.
Nárůst videí vytvářených umělou inteligencí zásadním způsobem mění sdílení obsahu na sociálních médiích.
Shrnutí a přepracování “The Gist” o transformaci AI a organizační kultuře Transformace AI představuje především kulturní výzvu, nikoli pouze technologickou
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today