News
>
세서미, 고급 음성 비서 마야를 위한 CSM-1B 모델 출시

Auto-Filling SEO Website as a Gift

Launch Your AI-Powered Business and get clients!

No advertising investment needed—just results. AI finds, negotiates, and closes deals automatically

March 13, 2025, 9:41 p.m.

세서미, 고급 음성 비서 마야를 위한 CSM-1B 모델 출시

AI 회사 Sesame은 인상적으로 사실감 넘치는 음성 비서 Maya를 구동하는 기본 모델을 발표했습니다. 이번 모델은 10억 개의 파라미터로 구성되어 있으며(여기서 “파라미터”는 모델의 개별 구성 요소를 의미), Apache 2. 0 라이센스 하에 상업적 사용이 거의 제한 없이 가능하도록 공개되었습니다. CSM-1B라고 이름 붙여진 이 모델은 텍스트와 오디오 입력 모두에서 “RVQ 오디오 코드”를 생성합니다. 이는 AI 개발 플랫폼 Hugging Face에서 Sesame이 설명한 내용입니다. RVQ는 “잔여 벡터 양자화”를 의미하며, 오디오를 코드라고 알려진 이산 토큰으로 인코딩하는 데 사용되는 방법입니다. 이 기술은 Google의 SoundStream과 Meta의 Encodec 등 다양한 최신 AI 오디오 기술에 활용되고 있습니다. CSM-1B는 Meta의 Llama 패밀리 모델을 기반으로 하며 오디오 “디코더” 구성 요소를 통합하고 있습니다. Sesame에 따르면, CSM의 세밀하게 조정된 버전이 Maya를 구동합니다. CSM-1B의 Hugging Face 및 GitHub 저장소에 따르면, Sesame은 “여기에서 오픈 소스된 모델은 기본 생성 모델입니다. 다양한 목소리를 생성할 수 있지만 특정 목소리로 세밀하게 조정되지는 않았습니다.

[. . . ] 모델은 훈련 세트의 데이터 오염으로 인해 비영어 언어에 대한 일부 능력을 가지고 있지만, 성능은 최적이 아닐 것으로 예상됩니다. ”라고 밝혔습니다. Sesame이 CSM-1B를 훈련시키기 위해 어떤 데이터를 사용했는지에 대해서는 명확하지 않으며, 회사는 이 정보를 공개하지 않았습니다. 모델에 중요한 안전 장치가 부족하다는 점을 주목해야 합니다. Sesame은 개발자와 사용자에게 누군가의 목소리를 허락 없이 모방하거나, 허위 뉴스와 같은 오해의 소지가 있는 자료를 생성하거나, 해로운 또는 악의적인 활동에 참여하지 않도록 권장하고 있습니다. 저는 Hugging Face에서 데모를 테스트해 보았고, 제 목소리 모방하는 데 1분도 걸리지 않았습니다. 이후 선거와 러시아 선전과 같은 논란이 되는 주제를 포함한 다양한 주제에 대해 음성을 생성하는 것은 간단했습니다. Consumer Reports는 최근 현재 이용 가능한 많은 인기 있는 AI 기반 음성 복제 도구들이 사기나 잘못된 사용에 대한 “유의미한” 보호 장치가 부족하다고 경고했습니다. Oculus 공동 창립자인 Brendan Iribe가 공동 설립한 Sesame은 2월 말 매우 사실적인 비서 기술로 큰 주목을 받았습니다. Maya와 Sesame의 또 다른 비서인 Miles는 숨을 쉬고, 말하는 도중에 중간에 끼어들 수 있으며, OpenAI의 Voice Mode와 유사한 말의 불완전함이 있습니다. 회사는 Andreessen Horowitz, Spark Capital, Matrix Partners로부터 비공식적인 투자를 받았습니다. 음성 비서 기술을 개발하는 것 외에도, Sesame은 자사의 독점 모델을 활용하여 “하루 종일 착용할 수 있는” AI 안경의 프로토타입을 제작하고 있습니다.

News source

Brief news summary

세서미(Sesame)는 오큘러스(Oculus)의 브랜든 이리브(Brendan Iribe)가 공동 설립한 기업으로, AI 음성 조수 모델인 CSM-1B를 소개했습니다. 이 모델은 10억 개의 매개변수를 자랑하며 상업적 용도를 위해 Apache 2.0 라이선스를 받고 제한이 거의 없습니다. CSM-1B는 오디오 코딩을 위해 잔여 벡터 양자화(RVQ)를 활용하여 구글의 사운드스트림(SoundStream)과 같은 선도적인 AI 오디오 기술 중 하나로 자리 잡고 있습니다. 메타(Meta)의 라마(Llama) 프레임워크를 기반으로 개발된 이 모델은 다양한 목소리를 생성하는 오디오 디코더를 특징으로 하지만, 음성 복제를 위해 설계되지는 않았습니다. 비영어 언어에서의 성능은 훈련 데이터의 범위 때문에 제한될 수 있습니다. 또한, 오용에 대한 보호 장치가 거의 없어 주로 불법 음성 복제를 포함한 유해한 관행을 예방하기 위해 명예 코드에 의존하고 있습니다. 세서미의 음성 비서인 마야(Maya)와 마일스(Miles)는 자연스러운 언어 특성으로 인정받고 있습니다. 안드레센 호로위츠(Andreessen Horowitz)와 같은 투자자들의 지원을 받으며 이 회사는 음성 기술을 통합한 AI 안경 개발도 모색하고 있습니다. 그럼에도 불구하고, 최근 소비자 보고서에 의해 강조된 바와 같이 AI 음성 복제의 사기 및 오용 가능성에 대한 우려가 제기되고 있습니다.

Business on autopilot