Auto-Filling SEO Website as a Gift

Launch Your AI-Powered Business and get clients!

No advertising investment needed—just results. AI finds, negotiates, and closes deals automatically

April 20, 2025, 8:55 p.m.
50

OpenAI의 o3 AI 모델 벤치마크의 불일치로 투명성 문제 제기

OpenAI의 o3 인공지능 모델의 퍼포먼스 벤치마크 결과 간의 차이로 인해 회사의 투명성 및 모델 평가 방법에 대한 의문이 제기되고 있습니다. OpenAI가 12월에 o3를 공개할 때, 이 모델이 도전적인 수학 문제 세트인 FrontierMath의 질문들에 대해 정답률이 25%를 조금 넘는다고 주장했습니다. 이 점수는 경쟁사들을 훨씬 능가하는 것으로, 가장 좋은 모델조차도 FrontierMath 문제의 약 2%만 정답으로 맞힌 수준이었습니다. OpenAI의 최고 연구 책임자인 Mark Chen은 라이브 스트리밍 중에 “현재 시장에 나와 있는 모든 제품들은 FrontierMath에서 2% 미만을 기록하고 있다”고 말했습니다. “우리는 내부적으로 o3를 강력한 테스트용 컴퓨팅 환경에서 실행했을 때 25% 이상을 달성하는 것을 보고 있습니다. ” 그러나 이 수치는 아마도 공개된 모델보다 더 많은 컴퓨팅 자원을 활용한 o3의 버전에서 나온 상한선일 가능성이 높습니다. 포트니어Math를 개발한 연구기관인 Epoch AI는 금요일에 독립적인 벤치마크 결과를 발표했습니다. 그들은 o3가 약 10%의 점수를 기록했다고 밝혔으며, 이는 OpenAI가 주장한 최고 수치보다 훨씬 낮은 결과입니다. 이것이 OpenAI의 기만을 의미하는 것은 아닙니다. OpenAI가 12월에 발표한 벤치마크 결과는 Epoch의 결과와 일치하는 하한선 점수였으며, Epoch는 테스트 환경 및 평가에 사용된 FrontierMath의 최신 버전 차이도 언급했습니다. Epoch는 “우리 결과와 OpenAI의 결과 차이가 나는 이유는 OpenAI가 더 강력한 내부 환경에서 평가를 했거나, 더 많은 테스트용 컴퓨팅 자원을 사용했거나, 또는 다른 FrontierMath 문제 세트(앞서 언급된 180문제 vs.

290문제)에서 평가를 진행했기 때문일 수 있다”고 설명했습니다. 또한, 사전 공개된 o3 버전을 테스트했던 ARC Prize 재단의 X 게시글에 따르면, 공개된 o3 모델은 "대화 및 제품 활용을 위해 조정된 별개의 모델"로, Epoch의 관찰과 일치합니다. ARC Prize는 “공개된 모든 o3의 계산 환경은 우리가 벤치마크한 버전보다 작다”고 덧붙였습니다. 일반적으로 더 큰 계산 환경은 더 좋은 벤치마크 결과를 내는 경향이 있습니다. OpenAI의 기술 직원인 Wenda Zhou는 지난주 라이브 스트리밍에서 “생산용 o3 버전이 12월 데모 버전보다 실제 활용 사례와 속도 측면에서 더 최적화되어 있어 벤치마크 결과에 차이가 있을 수 있다”고 밝혔습니다. 그녀는 “우리는 모델의 비용 효율성과 일반적인 유용성을 높이기 위해 여러 최적화를 진행했다”며, “이것이 훨씬 더 나은 모델이라고 생각한다”고 말했습니다. “답변을 기다리는 시간이 줄어들기 때문에, 이 모델들이 가진 중요한 장점입니다. ” 비록 공개된 o3가 초기에 OpenAI의 테스트 주장에 못 미친다고 해도, 이는 큰 문제가 되지 않습니다. 왜냐하면, OpenAI의 o3-mini-high와 o4-mini 모델이 FrontierMath의 성능에서 o3보다 뛰어나며, 회사는 곧 더 강력한 버전인 o3-pro도 출시할 계획이기 때문입니다. 이 사건은 또한 AI 벤치마크 결과들을 신중히 검토해야 함을 시사합니다—특히 자신들의 서비스를 홍보하는 업체들이 제공하는 경우에는 더더욱 그렇습니다. AI 분야에서는 벤치마크 ‘논란’이 점점 더 흔해지고 있는데, 이는 업체들이 새 모델로 언론과 사용자들의 관심을 끌기 위해 경쟁하기 때문입니다. 1월에는 Epoch가 OpenAI의 자금 지원 공개를 o3 발표 이후로 미루면서 비판을 받았으며, 많은 FrontierMath 기여자들은 OpenAI의 개입 사실을 공개될 때까지 알지 못했던 것으로 알려졌습니다. 최근에는 Elon Musk의 xAI가 자사 AI 모델 Grok 3의 벤치마크 차트에 대해 오해를 불러일으키는 자료를 공개했다는 비판도 있었습니다. 또, Meta는 이달 초 개발자에게 제공한 버전과 다른 성능의 벤치마크 점수에 대해 홍보한 사실도 인정했습니다. 지난주 라이브 스트리밍에서 OpenAI 기술 직원 Wenda Zhou의 의견이 추가되었습니다.



Brief news summary

오픈AI의 o3 AI 모델은 FrontierMath 벤치마크에서 상반된 성능 결과로 인해 투명성 문제가 제기되고 있습니다. 오픈AI는 o3가 어렵다고 여겨지는 수학 문제의 25% 이상을 해결했다고 주장했으며, 경쟁사보다 현저히 높은 성과를 보였습니다(정확도 2% 미만). 그러나 Epoch AI의 독립 시험은 정확도를 약 10%로 보고하며, 이는 오픈AI가 공개한 신중한 예상치와 더 일치합니다. 이러한 차이는 오픈AI의 내부 평가가 더 크고 강력한 버전의 o3를 사용했기 때문에 나타난 것으로, 더 많은 계산 자원을 활용했으며, 공개된 모델은 더 작고 속도를 위해 최적화되어 성능이 떨어졌기 때문입니다. ARC Prize Foundation과 오픈AI 직원 모두 이러한 크기와 튜닝 차이를 인정했습니다. 최근 모델인 o3-mini-high와 o4-mini는 개선을 보여주지만, 이 상황은 인공지능 벤치마크 주장의 신뢰성에 대해 회의적인 시각이 필요함을 드러냅니다. 특히, 홍보용 주장인 경우 더욱 그렇습니다. 이와 유사한 투명성 문제는 Epoch, xAI, Meta와 같은 다른 AI 개발사들도 겪고 있어, AI 산업 전반에서 지속적인 도전 과제로 남아 있습니다.
Business on autopilot

AI-powered Lead Generation in Social Media
and Search Engines

Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment

Language

Learn how AI can help your business.
Let’s talk!

Hot news

June 26, 2025, 2:22 p.m.

국회, 핵심 암호화폐 및 스테이블코인법안 통과 추진

최근 입법 진행은 미국에서 디지털 화폐 규제에 중요한 발걸음을 내딛는 것으로, 특히 상원에서 GENIUS 법안이 진전되고 하원 금융서비스위원회와 농업위원회에서 CLARITY 법안이 검토된 것과 관련이 깊습니다.

June 26, 2025, 2:17 p.m.

기술 로비단체, EU 지도자들에게 인공지능법 잠정 중단 촉구

기술 로비 단체인 CCIA 유럽은 알파벳, 메타, 애플 등 주요 기업들을 대표하며 최근 유럽연합에 AI 법안의 실행을 일시 중단할 것을 촉구했습니다.

June 26, 2025, 10:52 a.m.

아레피움: 게임을 바꾸는 작업증명 블록체인

바르고 유사한 EVM 블록체인으로 지배되는 혼잡한 Web3 환경 속에서 Alephium은 보안성 높은 작업증명(Proof-of-Work), 샤딩을 통한 확장성, 직관적인 사용자 경험, 그리고 혁신적인 에너지 모델을 결합한 대담한 스위스 레이어 1 접근법으로 차별화됩니다.

June 26, 2025, 10:39 a.m.

우리가 알고 있던 출판의 종말

생성형 인공지능(AI), 특히 챗봇과 구글의 AI 오버뷰와 같은 AI 기반 요약 도구의 급속한 부상은 전통적인 출판과 언론 분야에 큰 변화를 가져왔습니다.

June 26, 2025, 6:28 a.m.

블록체인 기반 플랫폼으로 주식 거래를 모방하며, 사용자들이 SpaceX 및 기타 인기 있…

뉴욕에 본사를 둔 투자 스타트업인 Republic은 SpaceX에 대한 노출 기회를 제공하기 위해 그 주식을 "토큰화"한 버전을 발행하고 있습니다.

June 26, 2025, 6:22 a.m.

AI 윤리: 자율적 의사결정의 도전 과제 탐색

인공지능(AI) 시스템이 발전하고 더 큰 자율성을 갖추게 되면서, 이들의 의사결정 과정에 대한 윤리적 우려가 부각되고 있습니다.

June 25, 2025, 2:38 p.m.

미국 입법자들, 연방 기관 내 중국 AI 사용 금지 법안 추진

미국 양당 의원들이 '반대적 AI 금지 법안'(No Adversarial AI Act)이라는 획기적인 법안을 발의하며 연방정부 내 중국 인공지능(AI) 시스템 사용 금지를 추진하고 있다.

All news