Discrepâncias nos benchmarks do modelo de IA o3 da OpenAI levantam preocupações sobre transparência

Uma discrepância entre os resultados de benchmarks de primeira e terceira parte para o modelo de IA o3 da OpenAI gerou questionamentos sobre a transparência da empresa e suas práticas de avaliação de modelos. Quando a OpenAI lançou o o3 em dezembro, afirmou que o modelo poderia responder corretamente pouco mais de um quarto das questões do FrontierMath, um conjunto desafiador de problemas matemáticos. Essa pontuação superou em muito os concorrentes — o próximo melhor modelo respondeu corretamente cerca de 2% dos problemas do FrontierMath. “Hoje, todas as ofertas disponíveis têm menos de 2% [no FrontierMath]”, declarou o diretor de pesquisa da OpenAI, Mark Chen, durante uma transmissão ao vivo. “Nós estamos vendo [internamente], com o o3 em configurações agressivas de tempo de computação de teste, conseguimos mais de 25%. ” No entanto, esse número provavelmente representava um limite superior, alcançado por uma versão do o3 com suporte de mais poder de computação do que o modelo que a OpenAI divulgou publicamente na semana passada. A Epoch AI, instituto de pesquisa responsável pelo FrontierMath, publicou na sexta-feira resultados independentes de benchmark para o3. Eles descobriram que o o3 obteve cerca de 10%, bem abaixo do número máximo declarado pela OpenAI. Isso não necessariamente implica em engano por parte da OpenAI. Os resultados de benchmark publicados pela OpenAI em dezembro indicaram um resultado mínimo consistente com as descobertas da Epoch.
A Epoch também observou diferenças nas configurações de teste e no uso de uma versão mais recente do FrontierMath para as avaliações. “Diferenças entre nossos resultados e os da OpenAI podem ser devido à avaliação pela OpenAI com uma estrutura interna mais poderosa, usando mais computação durante os testes, ou porque esses resultados foram obtidos com um subconjunto diferente do FrontierMath (os 180 problemas do frontiermath-2024-11-26 versus os 290 problemas do frontiermath-2025-02-28-private)”, explicou a Epoch. Segundo uma publicação na X pela Fundação ARC Prize, que testou uma versão pré-lançamento do o3, o modelo público do o3 “é um modelo diferente [. . . ] ajustado para uso em chat/produto, ” alinhando-se às observações da Epoch. “Todos os tiers de computação do o3 que foram liberados são menores do que a versão que [nós] avaliamos”, acrescentou a ARC Prize. Geralmente, tiers maiores de computação tendem a produzir melhores resultados em benchmarks. Wenda Zhou, membro da equipe técnica da OpenAI, comentou durante uma transmissão ao vivo na semana passada que a versão de produção do o3 é “mais otimizada para casos de uso do mundo real” e mais rápida em comparação com a versão demonstrativa de dezembro, o que pode causar “disparidades” nos resultados dos benchmarks. “[Fizemos] otimizações para tornar o [modelo] mais eficiente em termos de custo [e] mais útil de forma geral, ” disse Zhou. “Ainda esperamos — acreditamos — que essa é uma versão muito melhor [. . . ] Você não precisará esperar tanto ao pedir uma resposta, o que é uma vantagem real com esses [tipos de] modelos. ” Dito isso, o fato de o o3 divulgado publicamente ficar aquém das alegações iniciais de testes da OpenAI é um pouco irrelevante, já que os modelos o3-mini-high e o4-mini superam o o3 no FrontierMath, e a empresa planeja lançar em breve uma variante mais poderosa, o3-pro. Ainda assim, esse episódio reforça que os resultados de benchmarks de IA devem ser analisados com cautela — especialmente quando fornecidos por empresas que promovem seus próprios serviços. Controvérsias envolvendo benchmarking têm se tornado cada vez mais comuns na área de IA, à medida que fornecedores competem por destaque na mídia e atenção dos usuários com novos modelos. Em janeiro, a Epoch foi alvo de críticas por atrasar a divulgação de financiamentos da OpenAI até após o anúncio do o3. Muitos colaboradores acadêmicos do FrontierMath desconheciam o envolvimento da OpenAI até que esse fato foi tornada público. Mais recentemente, a xAI de Elon Musk foi acusada de publicar gráficos de benchmark enganosos para seu modelo de IA Grok 3. Além disso, a Meta admitiu no início deste mês que promoveu pontuações de benchmark de uma versão do modelo diferente daquela disponibilizada aos desenvolvedores. Atualizado às 16h21, horário do Pacífico: Comentários do membro da equipe técnica da OpenAI, Wenda Zhou, adicionados à transmissão ao vivo da semana passada.
Brief news summary
O modelo de IA o3 da OpenAI despertou preocupações quanto à transparência devido a resultados conflitantes de desempenho no benchmark FrontierMath. A OpenAI afirmou que o3 resolveu mais de 25% dos problemas matemáticos difíceis, superando significativamente os concorrentes, que apresentaram menos de 2% de precisão. No entanto, testes independentes realizados pela Epoch AI relataram uma precisão mais próxima de 10%, mais alinhada com as estimativas cautelosas publicadas pela própria OpenAI. Essa discrepância ocorre porque as avaliações internas da OpenAI usaram uma versão maior e mais potente do o3, com maiores recursos computacionais, enquanto o modelo lançado publicamente é menor e otimizado para velocidade, o que reduz seu desempenho. Tanto a Fundação Prix ARC quanto a equipe da OpenAI reconheceram essas diferenças de tamanho e ajustes. Modelos mais recentes, como o o3-mini-high e o4-mini, demonstram melhorias, mas a situação evidencia a necessidade de ceticismo em relação às alegações de benchmarks de IA, especialmente as de caráter promocional. Problemas semelhantes de transparência afetaram outros desenvolvedores de IA, como Epoch, xAI e Meta, evidenciando os desafios contínuos no setor de inteligência artificial.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!
Hot news

O que é Blockchain? Desmistificando o livro-razão…
Conhecido principalmente por ser a tecnologia por trás do Bitcoin, o blockchain está surgindo como um sistema sem necessidade de confiança, à prova de adulterações, com capacidade de revolucionar setores que vão de finanças a saúde.

"Murderbot": Uma IA que Não Se Importa Nem um Pou…
Durante décadas, filmes que exploram o potencial da consciência das máquinas—como Blade Runner, Ex Machina, Eu, Robô e muitos mais—normalmente trataram a emergência dessa consciência como inevitável.

Robinhood lança blockchain de camada-2 para negoc…
A expansão da Robinhood em ativos do mundo real (RWAs) está acelerando, enquanto a corretora digital lança uma camada 2 de blockchain focada em tokenização e inicia a negociação de tokens de ações para usuários na União Europeia.

Líderes do BRICS defenderam a proteção de dados c…
As nações do BRICS — Brasil, Rússia, Índia, China e África do Sul — estão cada vez mais assertivas ao abordar os desafios e oportunidades apresentados pela inteligência artificial (IA).

IA e Mudança Climática: Previsão do Impacto Ambie…
Nos últimos anos, a fusão de tecnologia e ciência ambiental tem possibilitado estratégias inovadoras para enfrentar os desafios urgentes das mudanças climáticas.

Reconsiderando Stablecoins: Como os Governos Pode…
Ao longo da última década, as criptomoedas passaram por um crescimento acelerado, originado do ceticismo em relação à autoridade centralizada.

Por que todo mundo está falando sobre a ação da S…
Pontos-Chave A SoundHound oferece uma plataforma de IA de voz independente que atende a múltiplos setores, com um mercado endereçável total (TAM) de 140 bilhões de dólares