Auto-Filling SEO Website as a Gift

Launch Your AI-Powered Business and get clients!

No advertising investment needed—just results. AI finds, negotiates, and closes deals automatically

March 13, 2025, 9:41 p.m.
10

세서미, 고급 음성 비서 마야를 위한 CSM-1B 모델 출시

AI 회사 Sesame은 인상적으로 사실감 넘치는 음성 비서 Maya를 구동하는 기본 모델을 발표했습니다. 이번 모델은 10억 개의 파라미터로 구성되어 있으며(여기서 “파라미터”는 모델의 개별 구성 요소를 의미), Apache 2. 0 라이센스 하에 상업적 사용이 거의 제한 없이 가능하도록 공개되었습니다. CSM-1B라고 이름 붙여진 이 모델은 텍스트와 오디오 입력 모두에서 “RVQ 오디오 코드”를 생성합니다. 이는 AI 개발 플랫폼 Hugging Face에서 Sesame이 설명한 내용입니다. RVQ는 “잔여 벡터 양자화”를 의미하며, 오디오를 코드라고 알려진 이산 토큰으로 인코딩하는 데 사용되는 방법입니다. 이 기술은 Google의 SoundStream과 Meta의 Encodec 등 다양한 최신 AI 오디오 기술에 활용되고 있습니다. CSM-1B는 Meta의 Llama 패밀리 모델을 기반으로 하며 오디오 “디코더” 구성 요소를 통합하고 있습니다. Sesame에 따르면, CSM의 세밀하게 조정된 버전이 Maya를 구동합니다. CSM-1B의 Hugging Face 및 GitHub 저장소에 따르면, Sesame은 “여기에서 오픈 소스된 모델은 기본 생성 모델입니다. 다양한 목소리를 생성할 수 있지만 특정 목소리로 세밀하게 조정되지는 않았습니다.

[. . . ] 모델은 훈련 세트의 데이터 오염으로 인해 비영어 언어에 대한 일부 능력을 가지고 있지만, 성능은 최적이 아닐 것으로 예상됩니다. ”라고 밝혔습니다. Sesame이 CSM-1B를 훈련시키기 위해 어떤 데이터를 사용했는지에 대해서는 명확하지 않으며, 회사는 이 정보를 공개하지 않았습니다. 모델에 중요한 안전 장치가 부족하다는 점을 주목해야 합니다. Sesame은 개발자와 사용자에게 누군가의 목소리를 허락 없이 모방하거나, 허위 뉴스와 같은 오해의 소지가 있는 자료를 생성하거나, 해로운 또는 악의적인 활동에 참여하지 않도록 권장하고 있습니다. 저는 Hugging Face에서 데모를 테스트해 보았고, 제 목소리 모방하는 데 1분도 걸리지 않았습니다. 이후 선거와 러시아 선전과 같은 논란이 되는 주제를 포함한 다양한 주제에 대해 음성을 생성하는 것은 간단했습니다. Consumer Reports는 최근 현재 이용 가능한 많은 인기 있는 AI 기반 음성 복제 도구들이 사기나 잘못된 사용에 대한 “유의미한” 보호 장치가 부족하다고 경고했습니다. Oculus 공동 창립자인 Brendan Iribe가 공동 설립한 Sesame은 2월 말 매우 사실적인 비서 기술로 큰 주목을 받았습니다. Maya와 Sesame의 또 다른 비서인 Miles는 숨을 쉬고, 말하는 도중에 중간에 끼어들 수 있으며, OpenAI의 Voice Mode와 유사한 말의 불완전함이 있습니다. 회사는 Andreessen Horowitz, Spark Capital, Matrix Partners로부터 비공식적인 투자를 받았습니다. 음성 비서 기술을 개발하는 것 외에도, Sesame은 자사의 독점 모델을 활용하여 “하루 종일 착용할 수 있는” AI 안경의 프로토타입을 제작하고 있습니다.



Brief news summary

세서미(Sesame)는 오큘러스(Oculus)의 브랜든 이리브(Brendan Iribe)가 공동 설립한 기업으로, AI 음성 조수 모델인 CSM-1B를 소개했습니다. 이 모델은 10억 개의 매개변수를 자랑하며 상업적 용도를 위해 Apache 2.0 라이선스를 받고 제한이 거의 없습니다. CSM-1B는 오디오 코딩을 위해 잔여 벡터 양자화(RVQ)를 활용하여 구글의 사운드스트림(SoundStream)과 같은 선도적인 AI 오디오 기술 중 하나로 자리 잡고 있습니다. 메타(Meta)의 라마(Llama) 프레임워크를 기반으로 개발된 이 모델은 다양한 목소리를 생성하는 오디오 디코더를 특징으로 하지만, 음성 복제를 위해 설계되지는 않았습니다. 비영어 언어에서의 성능은 훈련 데이터의 범위 때문에 제한될 수 있습니다. 또한, 오용에 대한 보호 장치가 거의 없어 주로 불법 음성 복제를 포함한 유해한 관행을 예방하기 위해 명예 코드에 의존하고 있습니다. 세서미의 음성 비서인 마야(Maya)와 마일스(Miles)는 자연스러운 언어 특성으로 인정받고 있습니다. 안드레센 호로위츠(Andreessen Horowitz)와 같은 투자자들의 지원을 받으며 이 회사는 음성 기술을 통합한 AI 안경 개발도 모색하고 있습니다. 그럼에도 불구하고, 최근 소비자 보고서에 의해 강조된 바와 같이 AI 음성 복제의 사기 및 오용 가능성에 대한 우려가 제기되고 있습니다.
Business on autopilot

AI-powered Lead Generation in Social Media
and Search Engines

Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment

Language

Content Maker

Our unique Content Maker allows you to create an SEO article, social media posts, and a video based on the information presented in the article

news image

Last news

The Best for your Business

Learn how AI can help your business.
Let’s talk!

June 24, 2025, 2:43 p.m.

미국 의회, 스테이블코인 규제 방안 통과 임박

수년간의 여러 노력 끝에 미국 의회는 이제 스테이블코인에 관한 종합적인 규제 체계를 제정하는 데 거의 다다랐습니다.

June 24, 2025, 2:37 p.m.

일론 머스크, 개인 견해에 맞도록 AI 플랫폼 그로크 재교육 계획

일론 머스크는 여러 선도 기술 기업의 유명한 기업가이자 CEO로서 최근 AI 플랫폼인 그로크(Grok)의 성능에 불만을 표명하였다.

June 24, 2025, 10:41 a.m.

엘론 머스크의 Grok 재구성: 개인적 견해와 일치하는 AI 플랫폼

일론 머스크는 자신의 인공지능 플랫폼인 Grok의 성능, 특히 논란의 여지가 있거나 논쟁적인 질문에 대한 대응에 대해 공개적으로 불만을 표명해 왔습니다.

June 24, 2025, 10:26 a.m.

파키스탄, 블록체인과 디지털 자산 규제를 위한 크립토 위원회 출범

파키스탄은 파키스탄 암호화 위원회(PCC)를 설립하여 디지털 혁신을 적극적으로 도입하는 데 있어 중대한 발전을 이루었습니다.

June 24, 2025, 6:17 a.m.

홍콩 Web3 그룹, 블록체인 개발 가속화를 위한 청사진 발표

블록체인 인프라 개발을 가속화하기 위한 투자를 확대하는 호소에 따라, 업계 그룹 Web3 Harbour와 회계법인 PwC 홍콩은 월요일에 ‘홍콩 Web3 설계도’를 발표하며 최근 도시의 모멘텀을 계승했습니다.

June 24, 2025, 6:15 a.m.

듀크 대학 연구진이 의료 환경에서의 AI 안전성을 연구하다

보건 전문가들은 점점 더 인공지능(AI) 기술을 일상 업무에 도입하고 있으며, 특히 의료 기록 작성과 같은 시간 소요가 많은 작업에 이를 적극 활용하고 있다.

June 23, 2025, 2:22 p.m.

아마존, 인공지능 통합으로 로봇공학 강화

아마존은 최근 Covariant의 창립자인 Pieter Abbeel, Peter Chen, Rocky Duan을 비롯한 창립자들과 직원들의 약 4분의 1을 채용하여 인공지능(AI) 및 로보틱스 역량을 강화했습니다.

All news