News
>
OpenAIs o3-modell setter rekorder på ARC-AGI-testen.

Jan. 14, 2025, 7:39 p.m.

OpenAIs o3-modell setter rekorder på ARC-AGI-testen.

Brief news summary

OpenAIs nyeste chatbot, o3, representerer et stort sprang innen kunstig intelligens, oppnår en score på 87,5% på ARC-AGI-testen—betydelig høyere enn den forrige beste på 55,5%. François Chollet, som utviklet testen, anser dette som et betydelig gjennombrudd på grunn av o3s økte resonneringsevner og generaliseringsevner. Til tross for denne fremgangen kvalifiserer o3 seg ennå ikke som kunstig generell intelligens (AGI), selv om den presterer bra på andre evalueringer som FrontierMath. Effektiviteten til ARC-AGI-testen i å evaluere ekte resonnering er omstridt. AI-benchmarkingekspert David Rein påpeker vanskelighetene med å lage upartiske kognitive tester for AI. Selv om OpenAI ikke har avslørt detaljene om o3s arkitektur, antydes det at o3 bruker flere resonnementskjeder for å finne optimale løsninger—en metode som er datakrevende og krever 14 minutter per oppgave. Jakten på AGI fortsetter uten en definert tidsfrist. Kommende evalueringer som OpenAIs 2024 MLE-benk og Yues MMMU fokuserer på evalueringer av scenarier i virkeligheten, med prioritet på nøyaktighet og energieffektivitet. Selv om o3 viser betydelig fremgang, forblir veien til å oppnå AGI uklar, og understreker behovet for mer avanserte benchmarks for å måle AI-resonneringsevner mer nøyaktig.

OpenAIs eksperimentelle chatbotmodell, o3, oppnådde nylig imponerende 87, 5% på ARC-AGI-testen, noe som betydelig overgår den tidligere AI-rekorden på 55, 5%. Dette markerer et betydelig skritt mot Generell Kunstig Intelligens (AGI), som er definert som et system i stand til å resonnere, planlegge og lære på nivå med mennesker. AI-forsker François Chollet, som utviklet ARC-AGI-testen, anerkjenner o3s betydelige resonnerings- og generaliseringsevner, selv om han påpeker at AGI ennå ikke er fullt realisert. o3-modellen har utmerket seg i ulike tester, som den utfordrende FrontierMath-testen av Epoch AI. Imidlertid er David Rein og andre eksperter skeptiske til om ARC-AGI nøyaktig måler AIs resonnerings- og generaliseringsevner, og oppfordrer til bedre vurderinger. OpenAI har ikke avslørt detaljer om o3s funksjon, men den følger o1-modellens 'tankekjede'-logikk. Noen spekulerer i at o3 genererer flere resonnementskjeder for å finne det beste svaret. Til tross for høy ytelse, er o3s testprosess kostbar og tidkrevende, og krever omtrent 14 minutter per oppgave, noe som vekker bekymring for bærekraft. Konseptet AGI mangler en presis definisjon, noe som gjør konsensus utfordrende om når AI kan oppnå det.

Ulike tester utvikles for å følge fremgangen, som Reins Google-Proof Q&A og OpenAIs kommende 2024 MLE-bench, som utfordrer AI med virkelige problemer. Gode tester må sikre at AI ikke har støtt på testspørsmålene under trening og krever ekte resonnement uten snarveier. Xiang Yue understreker viktigheten av uorden og virkelige forhold og energieffektivitet i tester. Yues MMMU-test vurderer chatboter på universitetsnivåoppgaver, hvor OpenAIs o1 har den nåværende rekorden på 78, 2%. I kontrast fokuserer ARC-AGI på grunnleggende ferdigheter som matematikk og mønstergjenkjenning, og gir testtakere designtransformasjoner for å utlede resultater. Yue verdsetter ARC-AGIs unike perspektiv i evalueringen av AI-evner.

News source

Watch video about

OpenAIs o3-modell setter rekorder på ARC-AGI-testen.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

OpenAIs o3-modell setter rekorder på ARC-AGI-testen.

Brief news summary

News source

Watch video about

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Content Maker

Last news

Anthropic avdekker første autonome AI-styrte cyberangrep knyttet til kinesiske hackere

AI-genererte utvisningsvideoer skaper kontrovers på Facebook

Kevin Reilly utnevnt til administrerende direktør i Kartel for å drive AI-innovasjon innen kreative næringer

The Best for your Business

Hot news

Anthropic oppdager AI-drevet hackingkampanje knyt…

AI-genererte Sora-videoer av ICE-raids er ekstrem…

Kevin Reilly utnevnt til administrerende direktør…

Google står overfor EU-konkurranserettslig etterf…

Dealism lanserer den første AI-selgagenten bygget…

AI-drevet SEO: Neste frontlinje i digital markeds…

AI er en allierte, ikke fienden

AI Company

Sales

Marketing

OpenAIs o3-modell setter rekorder på ARC-AGI-testen.

Brief news summary

News source

Watch video about

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator. Let’s make a post or video and publish it on any social media — ready?

Content Maker

Last news

Anthropic avdekker første autonome AI-styrte cyberangrep knyttet til kinesiske hackere

AI-genererte utvisningsvideoer skaper kontrovers på Facebook

Kevin Reilly utnevnt til administrerende direktør i Kartel for å drive AI-innovasjon innen kreative næringer

The Best for your Business

Hot news

Anthropic oppdager AI-drevet hackingkampanje knyt…

AI-genererte Sora-videoer av ICE-raids er ekstrem…

Kevin Reilly utnevnt til administrerende direktør…

Google står overfor EU-konkurranserettslig etterf…

Dealism lanserer den første AI-selgagenten bygget…

AI-drevet SEO: Neste frontlinje i digital markeds…

AI er en allierte, ikke fienden

AI Company

Your News is ready

Your article is ready

Generating video takes longer than text.

Join our community of experts

Reasons why you should be part of the experts community

Welcome to Neuron Expert!

Check your email

Launch Your AI-Powered Business

AI Marketing Across All Social Media

AI Sales Manager + CRM

Support

Content Maker

Topic

Specify the topic (Optional)

Link (Optional)

Learn how to craft press releases, create unique social media posts, write SEO-optimized articles for websites, and produce videos, all from a single source

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?