lang icon English
Jan. 14, 2025, 7:39 p.m.
1881

OpenAIs o3-modell setter rekorder på ARC-AGI-testen.

Brief news summary

OpenAIs nyeste chatbot, o3, representerer et stort sprang innen kunstig intelligens, oppnår en score på 87,5% på ARC-AGI-testen—betydelig høyere enn den forrige beste på 55,5%. François Chollet, som utviklet testen, anser dette som et betydelig gjennombrudd på grunn av o3s økte resonneringsevner og generaliseringsevner. Til tross for denne fremgangen kvalifiserer o3 seg ennå ikke som kunstig generell intelligens (AGI), selv om den presterer bra på andre evalueringer som FrontierMath. Effektiviteten til ARC-AGI-testen i å evaluere ekte resonnering er omstridt. AI-benchmarkingekspert David Rein påpeker vanskelighetene med å lage upartiske kognitive tester for AI. Selv om OpenAI ikke har avslørt detaljene om o3s arkitektur, antydes det at o3 bruker flere resonnementskjeder for å finne optimale løsninger—en metode som er datakrevende og krever 14 minutter per oppgave. Jakten på AGI fortsetter uten en definert tidsfrist. Kommende evalueringer som OpenAIs 2024 MLE-benk og Yues MMMU fokuserer på evalueringer av scenarier i virkeligheten, med prioritet på nøyaktighet og energieffektivitet. Selv om o3 viser betydelig fremgang, forblir veien til å oppnå AGI uklar, og understreker behovet for mer avanserte benchmarks for å måle AI-resonneringsevner mer nøyaktig.

OpenAIs eksperimentelle chatbotmodell, o3, oppnådde nylig imponerende 87, 5% på ARC-AGI-testen, noe som betydelig overgår den tidligere AI-rekorden på 55, 5%. Dette markerer et betydelig skritt mot Generell Kunstig Intelligens (AGI), som er definert som et system i stand til å resonnere, planlegge og lære på nivå med mennesker. AI-forsker François Chollet, som utviklet ARC-AGI-testen, anerkjenner o3s betydelige resonnerings- og generaliseringsevner, selv om han påpeker at AGI ennå ikke er fullt realisert. o3-modellen har utmerket seg i ulike tester, som den utfordrende FrontierMath-testen av Epoch AI. Imidlertid er David Rein og andre eksperter skeptiske til om ARC-AGI nøyaktig måler AIs resonnerings- og generaliseringsevner, og oppfordrer til bedre vurderinger. OpenAI har ikke avslørt detaljer om o3s funksjon, men den følger o1-modellens 'tankekjede'-logikk. Noen spekulerer i at o3 genererer flere resonnementskjeder for å finne det beste svaret. Til tross for høy ytelse, er o3s testprosess kostbar og tidkrevende, og krever omtrent 14 minutter per oppgave, noe som vekker bekymring for bærekraft. Konseptet AGI mangler en presis definisjon, noe som gjør konsensus utfordrende om når AI kan oppnå det.

Ulike tester utvikles for å følge fremgangen, som Reins Google-Proof Q&A og OpenAIs kommende 2024 MLE-bench, som utfordrer AI med virkelige problemer. Gode tester må sikre at AI ikke har støtt på testspørsmålene under trening og krever ekte resonnement uten snarveier. Xiang Yue understreker viktigheten av uorden og virkelige forhold og energieffektivitet i tester. Yues MMMU-test vurderer chatboter på universitetsnivåoppgaver, hvor OpenAIs o1 har den nåværende rekorden på 78, 2%. I kontrast fokuserer ARC-AGI på grunnleggende ferdigheter som matematikk og mønstergjenkjenning, og gir testtakere designtransformasjoner for å utlede resultater. Yue verdsetter ARC-AGIs unike perspektiv i evalueringen av AI-evner.


Watch video about

OpenAIs o3-modell setter rekorder på ARC-AGI-testen.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Nov. 14, 2025, 1:26 p.m.

Anthropic oppdager AI-drevet hackingkampanje knyt…

Anthropic, et ledende AI-selskap, har avdekket en banebrytende og alarmerende utvikling innen cybersikkerhet: det første dokumenterte tilfellet der AI autonomt styrer en hackingkampanje.

Nov. 14, 2025, 1:25 p.m.

AI-genererte Sora-videoer av ICE-raids er ekstrem…

“Se deg for hvor du setter føttene, siré, fortsett å gå,” sier en politibetjent med vest merket ICE og en merkelapp som sier “POICE” til en latino-lignende mann iført en Walmart-ansattvest.

Nov. 14, 2025, 1:18 p.m.

Kevin Reilly utnevnt til administrerende direktør…

Kevin Reilly, en erfaren Hollywood-toppsjef kjent for sin sentrale rolle i lanseringen av banebrytende TV-serier som "The Sopranos", "The Office" og "Glee", har tatt på seg en ny utfordring som administrerende direktør i Kartel, en AI- kreativ rådgivning basert i Beverly Hills.

Nov. 14, 2025, 1:14 p.m.

Google står overfor EU-konkurranserettslig etterf…

Den europeiske union har startet en stor antitrust-undersøkelse av Googles spam-politikk etter bekymringer fra flere nyhetsutgivere i Europa.

Nov. 14, 2025, 1:12 p.m.

Dealism lanserer den første AI-selgagenten bygget…

SINGAPORE, 13.

Nov. 14, 2025, 9:31 a.m.

AI-drevet SEO: Neste frontlinje i digital markeds…

Kunstig intelligens (KI) blir raskt en transformerende kraft innen digital markedsføring, spesielt innen søkemotoroptimalisering (SEO).

Nov. 14, 2025, 9:22 a.m.

AI er en allierte, ikke fienden

Shelley E. Kohan ønsker Leigh Sevin velkommen, medgrundlegger av Endear, en CRM-løsning tilpasset moderne omni-kanal detaljhandel.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today