News
>
Discrepâncias nos benchmarks do modelo de IA o3 da OpenAI levantam preocupações sobre transparência

April 20, 2025, 8:55 p.m.

Discrepâncias nos benchmarks do modelo de IA o3 da OpenAI levantam preocupações sobre transparência

Uma discrepância entre os resultados de benchmarks de primeira e terceira parte para o modelo de IA o3 da OpenAI gerou questionamentos sobre a transparência da empresa e suas práticas de avaliação de modelos. Quando a OpenAI lançou o o3 em dezembro, afirmou que o modelo poderia responder corretamente pouco mais de um quarto das questões do FrontierMath, um conjunto desafiador de problemas matemáticos. Essa pontuação superou em muito os concorrentes — o próximo melhor modelo respondeu corretamente cerca de 2% dos problemas do FrontierMath. “Hoje, todas as ofertas disponíveis têm menos de 2% [no FrontierMath]”, declarou o diretor de pesquisa da OpenAI, Mark Chen, durante uma transmissão ao vivo. “Nós estamos vendo [internamente], com o o3 em configurações agressivas de tempo de computação de teste, conseguimos mais de 25%. ” No entanto, esse número provavelmente representava um limite superior, alcançado por uma versão do o3 com suporte de mais poder de computação do que o modelo que a OpenAI divulgou publicamente na semana passada. A Epoch AI, instituto de pesquisa responsável pelo FrontierMath, publicou na sexta-feira resultados independentes de benchmark para o3. Eles descobriram que o o3 obteve cerca de 10%, bem abaixo do número máximo declarado pela OpenAI. Isso não necessariamente implica em engano por parte da OpenAI. Os resultados de benchmark publicados pela OpenAI em dezembro indicaram um resultado mínimo consistente com as descobertas da Epoch.

A Epoch também observou diferenças nas configurações de teste e no uso de uma versão mais recente do FrontierMath para as avaliações. “Diferenças entre nossos resultados e os da OpenAI podem ser devido à avaliação pela OpenAI com uma estrutura interna mais poderosa, usando mais computação durante os testes, ou porque esses resultados foram obtidos com um subconjunto diferente do FrontierMath (os 180 problemas do frontiermath-2024-11-26 versus os 290 problemas do frontiermath-2025-02-28-private)”, explicou a Epoch. Segundo uma publicação na X pela Fundação ARC Prize, que testou uma versão pré-lançamento do o3, o modelo público do o3 “é um modelo diferente [. . . ] ajustado para uso em chat/produto, ” alinhando-se às observações da Epoch. “Todos os tiers de computação do o3 que foram liberados são menores do que a versão que [nós] avaliamos”, acrescentou a ARC Prize. Geralmente, tiers maiores de computação tendem a produzir melhores resultados em benchmarks. Wenda Zhou, membro da equipe técnica da OpenAI, comentou durante uma transmissão ao vivo na semana passada que a versão de produção do o3 é “mais otimizada para casos de uso do mundo real” e mais rápida em comparação com a versão demonstrativa de dezembro, o que pode causar “disparidades” nos resultados dos benchmarks. “[Fizemos] otimizações para tornar o [modelo] mais eficiente em termos de custo [e] mais útil de forma geral, ” disse Zhou. “Ainda esperamos — acreditamos — que essa é uma versão muito melhor [. . . ] Você não precisará esperar tanto ao pedir uma resposta, o que é uma vantagem real com esses [tipos de] modelos. ” Dito isso, o fato de o o3 divulgado publicamente ficar aquém das alegações iniciais de testes da OpenAI é um pouco irrelevante, já que os modelos o3-mini-high e o4-mini superam o o3 no FrontierMath, e a empresa planeja lançar em breve uma variante mais poderosa, o3-pro. Ainda assim, esse episódio reforça que os resultados de benchmarks de IA devem ser analisados com cautela — especialmente quando fornecidos por empresas que promovem seus próprios serviços. Controvérsias envolvendo benchmarking têm se tornado cada vez mais comuns na área de IA, à medida que fornecedores competem por destaque na mídia e atenção dos usuários com novos modelos. Em janeiro, a Epoch foi alvo de críticas por atrasar a divulgação de financiamentos da OpenAI até após o anúncio do o3. Muitos colaboradores acadêmicos do FrontierMath desconheciam o envolvimento da OpenAI até que esse fato foi tornada público. Mais recentemente, a xAI de Elon Musk foi acusada de publicar gráficos de benchmark enganosos para seu modelo de IA Grok 3. Além disso, a Meta admitiu no início deste mês que promoveu pontuações de benchmark de uma versão do modelo diferente daquela disponibilizada aos desenvolvedores. Atualizado às 16h21, horário do Pacífico: Comentários do membro da equipe técnica da OpenAI, Wenda Zhou, adicionados à transmissão ao vivo da semana passada.

News source

Brief news summary

O modelo de IA o3 da OpenAI despertou preocupações quanto à transparência devido a resultados conflitantes de desempenho no benchmark FrontierMath. A OpenAI afirmou que o3 resolveu mais de 25% dos problemas matemáticos difíceis, superando significativamente os concorrentes, que apresentaram menos de 2% de precisão. No entanto, testes independentes realizados pela Epoch AI relataram uma precisão mais próxima de 10%, mais alinhada com as estimativas cautelosas publicadas pela própria OpenAI. Essa discrepância ocorre porque as avaliações internas da OpenAI usaram uma versão maior e mais potente do o3, com maiores recursos computacionais, enquanto o modelo lançado publicamente é menor e otimizado para velocidade, o que reduz seu desempenho. Tanto a Fundação Prix ARC quanto a equipe da OpenAI reconheceram essas diferenças de tamanho e ajustes. Modelos mais recentes, como o o3-mini-high e o4-mini, demonstram melhorias, mas a situação evidencia a necessidade de ceticismo em relação às alegações de benchmarks de IA, especialmente as de caráter promocional. Problemas semelhantes de transparência afetaram outros desenvolvedores de IA, como Epoch, xAI e Meta, evidenciando os desafios contínuos no setor de inteligência artificial.

Business on autopilot

AI-powered Lead Generation in Social Media
and Search Engines

Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment

Language

Learn how AI can help your business.
Let’s talk!

Hot news

July 6, 2025, 2:15 p.m.

O que é Blockchain? Desmistificando o livro-razão…

Conhecido principalmente por ser a tecnologia por trás do Bitcoin, o blockchain está surgindo como um sistema sem necessidade de confiança, à prova de adulterações, com capacidade de revolucionar setores que vão de finanças a saúde.

July 6, 2025, 2:13 p.m.

"Murderbot": Uma IA que Não Se Importa Nem um Pou…

Durante décadas, filmes que exploram o potencial da consciência das máquinas—como Blade Runner, Ex Machina, Eu, Robô e muitos mais—normalmente trataram a emergência dessa consciência como inevitável.

July 6, 2025, 10:17 a.m.

Robinhood lança blockchain de camada-2 para negoc…

A expansão da Robinhood em ativos do mundo real (RWAs) está acelerando, enquanto a corretora digital lança uma camada 2 de blockchain focada em tokenização e inicia a negociação de tokens de ações para usuários na União Europeia.

July 6, 2025, 10:15 a.m.

Líderes do BRICS defenderam a proteção de dados c…

As nações do BRICS — Brasil, Rússia, Índia, China e África do Sul — estão cada vez mais assertivas ao abordar os desafios e oportunidades apresentados pela inteligência artificial (IA).

July 6, 2025, 6:40 a.m.

IA e Mudança Climática: Previsão do Impacto Ambie…

Nos últimos anos, a fusão de tecnologia e ciência ambiental tem possibilitado estratégias inovadoras para enfrentar os desafios urgentes das mudanças climáticas.

July 6, 2025, 6:32 a.m.

Reconsiderando Stablecoins: Como os Governos Pode…

Ao longo da última década, as criptomoedas passaram por um crescimento acelerado, originado do ceticismo em relação à autoridade centralizada.

July 5, 2025, 2:21 p.m.

Por que todo mundo está falando sobre a ação da S…

Pontos-Chave A SoundHound oferece uma plataforma de IA de voz independente que atende a múltiplos setores, com um mercado endereçável total (TAM) de 140 bilhões de dólares

All news

Launch Your AI-Powered Business and get clients!

Discrepâncias nos benchmarks do modelo de IA o3 da OpenAI levantam preocupações sobre transparência

News source

Brief news summary

AI-powered Lead Generation in Social Media
and Search Engines

I'm your Content Manager, ready to handle your first test assignment

Content Maker

Last news

Tecnologia Blockchain: Revolucionando Segurança, Transparência e Descentralização Além do Bitcoin

Murderbot: Uma abordagem única de ficção científica sobre autonomia de IA e consciência de máquinas

Robinhood lança negociação de ações tokenizadas e blockchain de camada 2 na UE

The Best for your Business

Learn how AI can help your business.
Let’s talk!

Hot news

O que é Blockchain? Desmistificando o livro-razão…

"Murderbot": Uma IA que Não Se Importa Nem um Pou…

Robinhood lança blockchain de camada-2 para negoc…

Líderes do BRICS defenderam a proteção de dados c…

IA e Mudança Climática: Previsão do Impacto Ambie…

Reconsiderando Stablecoins: Como os Governos Pode…

Por que todo mundo está falando sobre a ação da S…

Sales

Marketing

Launch Your AI-Powered Business and get clients!

Discrepâncias nos benchmarks do modelo de IA o3 da OpenAI levantam preocupações sobre transparência

News source

Brief news summary

AI-powered Lead Generation in Social Media and Search Engines

I'm your Content Manager, ready to handle your first test assignment

Content Maker

Last news

Tecnologia Blockchain: Revolucionando Segurança, Transparência e Descentralização Além do Bitcoin

Murderbot: Uma abordagem única de ficção científica sobre autonomia de IA e consciência de máquinas

Robinhood lança negociação de ações tokenizadas e blockchain de camada 2 na UE

The Best for your Business

Learn how AI can help your business. Let’s talk!

Hot news

O que é Blockchain? Desmistificando o livro-razão…

"Murderbot": Uma IA que Não Se Importa Nem um Pou…

Robinhood lança blockchain de camada-2 para negoc…

Líderes do BRICS defenderam a proteção de dados c…

IA e Mudança Climática: Previsão do Impacto Ambie…

Reconsiderando Stablecoins: Como os Governos Pode…

Por que todo mundo está falando sobre a ação da S…

Your News is ready

Your article is ready

Generating video takes longer than text.

Join our community of experts

Reasons why you should be part of the experts community

Welcome to Neuron Expert!

Launch Your AI-Powered Business

Auto-Filling SEO Website as a Gift

AI Marketing Across All Social Media

AI Sales Manager + CRM

Support

Content Maker

Topic

Specify the topic (Optional)

Link (Optional)

Learn how to craft press releases, create unique social media posts, write SEO-optimized articles for websites, and produce videos, all from a single source

AI-powered Lead Generation in Social Media
and Search Engines

Learn how AI can help your business.
Let’s talk!