Percée du Modèle OpenAI o3 sur la Référence ARC-AGI : Un Pas Vers une IA Avancée

Le modèle o3 d’OpenAI a réalisé une avancée surprenante en IA en obtenant un score de 75, 7 % sur le benchmark ARC-AGI, une version améliorée atteignant 87, 5 %. Bien que cela soit impressionnant, cela ne signifie pas l'arrivée de l'intelligence générale artificielle (AGI). Le benchmark ARC-AGI, basé sur le Corpus de Raisonnement Abstrait, évalue la capacité de l'IA à accomplir des tâches complexes et inédites avec des puzzles visuels. Il est difficile en raison de sa conception, qui empêche les solutions par la force brute à travers un simple entraînement de données. Le benchmark comprend un ensemble d'entraînement public de 400 exemples et des ensembles d'évaluation plus difficiles. Des ensembles de tests privés et semi-privés garantissent une évaluation impartiale sans exposer l'IA à des connaissances préalables. Auparavant, l’o1 d’OpenAI n’avait atteint que 32 % sur le benchmark ARC-AGI, et la méthode du chercheur Jeremy Berman avait atteint 53 %. François Chollet, créateur de l’ARC, décrit la performance de l’o3 comme un grand bond en IA, montrant une adaptabilité auparavant inédite dans les modèles GPT. Malgré l’attention considérable autour de l’o3, il n’est pas significativement plus grand que les modèles antérieurs, le marquant comme une véritable amélioration qualitative plutôt qu’un simple progrès incrémental.
Cependant, il engendre des coûts élevés : de 17 à 20 dollars et 33 millions de tokens par puzzle pour un faible calcul, augmentant substantiellement pour des réglages de calcul élevé. Chollet souligne la « synthèse de programmes » pour résoudre de nouveaux problèmes, impliquant de petits programmes combinables. Bien que peu de détails sur le fonctionnement de l’o3 existent, on suppose un raisonnement en chaîne avec des mécanismes de recherche et un apprentissage par renforcement pour affiner les solutions, bien que les opinions à ce sujet soient divisées parmi les experts. Malgré son appellation, l’ARC-AGI n’est pas un test pour l’AGI. Chollet déclare que bien que l’o3 ait des capacités avancées, ce n’est pas de l’AGI car il échoue encore à des tâches simples et ne peut pas apprendre de façon autonome sans entrée externe. La vérification indépendante remet en question les résultats d’OpenAI, suggérant que l’o3 a été ajusté avec les données d’entraînement ARC. Les chercheurs proposent de tester ces systèmes dans de nouveaux environnements au-delà d’ARC pour confirmer leurs compétences d’abstraction et de raisonnement. L’équipe de Chollet développe un nouveau benchmark défiant pour l’o3, alors que les humains pourraient résoudre la plupart des puzzles facilement, soulignant l’écart entre l’IA actuelle et une véritable AGI.
Brief news summary
Le modèle o3 d'OpenAI représente une avancée significative en intelligence artificielle, atteignant un score de 75,7 % sur le benchmark ARC-AGI, tandis que sa variante à haute puissance de calcul atteint un impressionnant 87,5 %. L'ARC-AGI évalue la capacité d'une IA à gérer des tâches visuelles nouvelles et complexes, soulignant l'intelligence adaptative. Malgré ces progrès, o3 ne se qualifie pas encore comme une véritable intelligence artificielle générale (AGI) car il lutte encore avec des tâches simples et nécessite une guidance humaine pour le raisonnement. Auparavant, le score le plus élevé sur l'ARC-AGI était de 53 %, réalisé en utilisant un mélange de modèles et d'algorithmes génétiques. François Chollet, l'architecte d'ARC, considère o3 comme un bond substantiel dans l'IA adaptative, dépassant les simples avancées incrémentales. Bien que o3 exige une puissance de calcul significative, ces exigences devraient diminuer avec le temps. Le succès du modèle pourrait être lié à la "synthèse de programmes," qui consiste à concevoir de petits programmes pour résoudre des tâches. Des discussions sont en cours sur l'incorporation de l'apprentissage par renforcement et des stratégies de recherche dans le modèle, bien que les détails de l'architecture restent non révélés. Bien que les réussites de o3 en ARC-AGI soient remarquables, elles ne sont pas équivalentes à l'AGI. Les experts, y compris Chollet, insistent sur le fait qu'exceller en ARC-AGI n'est pas synonyme d'atteindre l'AGI. De nouveaux défis sont en cours de développement pour mieux évaluer les modèles d'IA, particulièrement leur adaptabilité au-delà des scénarios d'entraînement initiaux. Ces efforts suggèrent un changement dans la formation et l'évaluation de l'IA, indiquant des progrès vers l'AGI, bien que l'objectif ultime ne soit pas encore atteint.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Emmer parraine la loi bipartite sur la certitude …
Le 21 mai, le représentant américain Tom Emmer (R-MN) a présenté une législation bipartite visant à clarifier le cadre légal et à stimuler le développement de la blockchain aux États-Unis.

Oracle va acheter pour 40 milliards de dollars de…
Oracle réalise un investissement majeur de 40 milliards de dollars pour acquérir environ 400 000 puces Nvidia GB200 haute performance afin d’alimenter le futur centre de données d’OpenAI à Abilene, au Texas.

Alerte spoiler : l'avenir du Web3 n'est pas la bl…
Opinion de Grigore Roșu, fondateur et PDG de Pi Squared Remettre en question la suprématie de la blockchain dans Web3 peut sembler presque hérétique, surtout pour ceux profondément investis dans Bitcoin, Ethereum et les technologies apparentées

La grande perturbation des emplois liés à l'intel…
Le marché du travail connaît une transformation majeure, conduite par l’intégration rapide de l’intelligence artificielle (IA) dans de nombreux secteurs d’activité.

Taille du marché de la blockchain dans la gestion…
Taille et prévisions du marché de la blockchain dans la gestion d'actifs (2025–2034) Le marché de la blockchain dans la gestion d'actifs exploite la technologie blockchain pour améliorer la transparence, la sécurité et l'efficacité dans la gestion des actifs financiers

Partenariat entre Nvidia et Foxconn suscite des i…
Lors du salon Computex 2025 à Taipei, le PDG de Nvidia, Jensen Huang, a reçu un accueil digne d'une star du rock, soulignant l'approfondissement des liens entre Nvidia et Taïwan.

Les investisseurs en DeFi se précipitent sur les …
Les dépôts de crypto-monnaies sur la blockchain de Hyperliquid, qui n’a que trois mois d’existence, connaissent une augmentation spectaculaire, alimentée principalement par un afflux de protocoles et de participants en finance décentralisée (DeFi).