lang icon En
Jan. 14, 2025, 7:39 p.m.
2167

El model o3 d'OpenAI bat rècords en la prova ARC-AGI.

Brief news summary

El darrer chatbot d'OpenAI, o3, representa un gran avanç en intel·ligència artificial, aconseguint una puntuació del 87,5% en la prova ARC-AGI, molt superior al millor resultat anterior del 55,5%. François Chollet, qui va desenvolupar la prova, considera que es tracta d'un avanç significatiu gràcies a les capacitats de raonament i generalització millorades d'o3. Tot i aquest progrés, o3 encara no es qualifica com a intel·ligència general artificial (AGI), encara que té un bon rendiment en altres avaluacions com FrontierMath. L'efectivitat de la prova ARC-AGI per avaluar el veritable raonament és qüestionada. L'expert en benchmarks d'IA, David Rein, assenyala les dificultats en crear proves cognitives imparcials per a la IA. Encara que OpenAI no ha revelat els detalls de l'arquitectura d’o3, es suggereix que o3 utilitza múltiples cadenes de raonament per trobar solucions òptimes, un mètode que és computacionalment intens i requereix 14 minuts per tasca. La recerca de l'AGI continua sense un termini definit. Les properes avaluacions com MLE-bench 2024 d'OpenAI i MMMU de Yue es centren en avaluacions de situacions del món real, prioritzant l'exactitud i l'eficiència energètica. Tot i que o3 demostra un progrés considerable, el camí cap a aconseguir l'AGI continua sent ambigu, subratllant la necessitat de benchmarks més avançats per mesurar més acuradament les capacitats de raonament de la IA.

El model experimental de xat d'OpenAI, o3, ha aconseguit recentment un impressionant 87, 5% a la prova ARC-AGI, superant significativament l'anterior rècord d'IA de 55, 5%. Això representa un pas important cap a la Intel·ligència General Artificial (AGI), definida com un sistema capaç de raonar, planificar i aprendre al mateix nivell que els humans. L'investigador d'IA François Chollet, que va desenvolupar la prova ARC-AGI, reconeix les capacitats substancials de raonament i generalització de l'o3, tot i que destaca que l'AGI encara no s'ha realitzat completament. El model o3 ha destacat en diversos criteris de referència, com la desafiant prova FrontierMath d'Epoch AI. Tanmateix, David Rein i altres experts es mostren escèptics sobre si l'ARC-AGI mesura realment les capacitats de raonament i generalització de l'IA, i insten a realitzar avaluacions millors. OpenAI no ha revelat detalls sobre el funcionament de l'o3, però segueix la lògica de 'cadena de pensament' del model o1. Alguns especulen que l'o3 genera múltiples cadenes de raonament per arribar a la millor resposta. Malgrat el seu alt rendiment, el procés de prova de l'o3 és costós i llarg, requerint uns 14 minuts per tasca, la qual cosa planteja preocupacions sobre la sostenibilitat. El concepte d'AGI manca d'una definició precisa, fent que el consens sobre quan podria assolir-lo sigui esquívol.

S'estan desenvolupant diverses proves per seguir el progrés, com el Google-Proof Q&A de Rein i el futur MLE-bench 2024 d'OpenAI, que desafia la IA amb problemes del món real. Bons criteris de referència han d'assegurar que la IA no hagi trobat les preguntes de prova durant l'entrenament i han d'exigir un veritable raonament sense dreceres. Xiang Yue emfatitza la importància de condicions confuses, del món real i l'eficiència energètica en les proves. El criteri de referència MMMU de Yue avalua els xatbots en tasques a nivell universitari, amb l'o1 d'OpenAI mantenint el rècord actual de 78, 2%. En contrast, l'ARC-AGI se centra en habilitats bàsiques com les matemàtiques i el reconeixement de patrons, proporcionant als examinats transformacions de disseny per inferir resultats. Yue aprecia la perspectiva única de l'ARC-AGI en avaluar les capacitats de la IA.


Watch video about

El model o3 d'OpenAI bat rècords en la prova ARC-AGI.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 23, 2025, 5:21 a.m.

Canvi de carrera el 2026? Els treballs d'IA més ‘…

Foto de Paulina Ochoa, Digital Journal A mes que molts persegueixen carreres basades en la tecnologia AI, quina accessibilitat tenen aquests rols? Un nou estudi de la plataforma d'aprenentatge digital EIT Campus identifica els llocs de feina en IA més fàcils d’entrar a Europa el 2026, mostrant que algunes posicions només requereixen entre 3 i 6 mesos de formació sense necessitat d’una titulació en ciències de la computació

Dec. 23, 2025, 5:20 a.m.

La intel·ligència artificial en els videojocs: mi…

L'indústria del joc està transformant-se ràpidament a través de la integració de tecnologies d'intel·ligència artificial (IA), canviant profundament la manera com es desenvolupen i s'experien els jocs pels jugadors.

Dec. 23, 2025, 5:15 a.m.

La companyia mare de Google compra el especialist…

La company matriz de Google, Alphabet Inc., va anunciar un acord per adquirir Intersect, una empresa de solucions energètiques per a centres de dades, per 4.750 milions de dòlars.

Dec. 23, 2025, 5:13 a.m.

Mites sobre SEO amb intel·ligència artificial dis…

La intel·ligència artificial (IA) s’ha convertit cada cop més en una eina essencial dins de la optimització per a motors de cerca (SEO), transformant la manera com els professionals del màrqueting gestionen la creació de contingut, la recerca de paraules clau i les estratègies d’engagement dels usuaris.

Dec. 23, 2025, 5:12 a.m.

Virgin Voyages desplega eines de màrqueting amb I…

Virgin Voyages s’ha associat amb Canva per convertir-se en la primera gran línia de creuers a implementar eines de màrqueting impulsades per IA a gran escala per a la seva xarxa d’assessors de viatges.

Dec. 22, 2025, 1:22 p.m.

AIMM: Objectiu de detecció basat en IA per a la m…

AIMM: Un marc innovador basat en Intel·ligència Artificial per detectar la manipulació del mercat borsari influïda per les xarxes socials En l’actual entorn de negociação de valors, en constant canvi, les xarxes socials s’han consolidat com una força clau que modela la dinàmica del mercat

Dec. 22, 2025, 1:16 p.m.

Exclusiu: Filevine adquereix Pincites, la company…

L’empresa de tecnologia jurídica Filevine ha adquirit Pincites, una companyia de redacció de contractes basada en Intel·ligència Artificial, millorant la seva presència en dret corporatiu i transaccional i avançant en la seva estratègia centrada en IA.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today