News
>
OpenAI o3-modellens gjennombrudd på ARC-AGI-benchmark: Et skritt mot avansert AI

Dec. 24, 2024, 5:49 p.m.

OpenAI o3-modellens gjennombrudd på ARC-AGI-benchmark: Et skritt mot avansert AI

Brief news summary

OpenAIs o3-modell markerer et betydelig framskritt innen kunstig intelligens, med en score på 75,7 % på ARC-AGI-benchmarken, mens dens høyberegningsvariant når imponerende 87,5 %. ARC-AGI vurderer en AIs evne til å håndtere nye og komplekse visuelle oppgaver, noe som fremhever adaptiv intelligens. Til tross for denne fremgangen kvalifiserer o3 seg ennå ikke som ekte generell kunstig intelligens (AGI) siden den fortsatt har problemer med enkle oppgaver og krever menneskelig veiledning for resonnement. Tidligere var den høyeste ARC-AGI-scoren 53 %, oppnådd ved bruk av en kombinasjon av modeller og genetiske algoritmer. François Chollet, arkitekten bak ARC, anser o3 som et stort sprang i adaptiv AI, og ikke bare som en inkrementell fremgang. Selv om o3 krever betydelig beregningskraft, forventes det at disse kravene vil avta over tid. Modellens suksess kan knyttes til "programsyntese", som innebærer å lage små programmer for å løse oppgaver. Det er pågående diskusjoner om å inkorporere forsterkende læring og søkestrategier i modellen, selv om detaljer om arkitekturen forblir uavslørte. Selv om o3s prestasjoner på ARC-AGI er bemerkelsesverdige, tilsvarer de ikke AGI. Eksperter, inkludert Chollet, understreker at å prestere godt på ARC-AGI ikke er det samme som å oppnå AGI. Nye utfordringer er under utvikling for å bedre evaluere AI-modeller, spesielt deres tilpasningsevne utover de innledende treningsscenariene. Disse innsatsene antyder et skifte i AI-trening og evaluering, som indikerer fremgang mot AGI, selv om det endelige målet ennå ikke har blitt nådd.

OpenAIs o3-modell har gjort et overraskende gjennombrudd innen AI ved å oppnå 75, 7 % på ARC-AGI-benchmarket, med en forbedret versjon som når 87, 5 %. Selv om dette er imponerende, indikerer det ikke ankomsten av kunstig generell intelligens (AGI). ARC-AGI-benchmarket, forankret i Abstract Reasoning Corpus, tester AIs evne i komplekse, nye oppgaver med visuelle puslespill. Det er utfordrende på grunn av sin design, som unngår brute-force-løsninger gjennom enkel datatrening. Benchmarket inkluderer et offentlig treningssett med 400 eksempler og mer utfordrende evalueringssett. Private og semi-private testsett sikrer ytterligere objektiv evaluering uten å eksponere AI for tidligere kunnskap. Tidligere nådde OpenAIs o1 kun 32 % på ARC-AGI, og forskeren Jeremy Bermans metode oppnådde 53 %. François Chollet, skaperen av ARC, beskriver o3s ytelse som et stort sprang innen AI, som viser tilpasningsevne tidligere usett i GPT-modeller. Til tross for den betydelige oppmerksomheten rundt o3, er det ikke betydelig større enn tidligere modeller, som markerer det som en ekte kvalitativ forbedring snarere enn kun en inkrementell fremgang.

Det påløper imidlertid høye kostnader: $17 til $20 og 33 millioner tokens per puslespill for lav-beregning, og øker betydelig for høye beregningsinnstillinger. Chollet understreker "programsyntese" for å løse nye problemer, som involverer små, kombinerbare programmer. Selv om det er få detaljer om o3s mekanismer, inkluderer gjetninger tankerekke-resonnement med søkemekanismer og forsterkningslæring (RL) for løsningstesting, selv om det er blandede syn på dette blant eksperter. Til tross for navnet, er ikke ARC-AGI en test for AGI. Chollet hevder at selv om o3 har avanserte kapasiteter, er det ikke AGI da det fortsatt mislykkes i enkle oppgaver og ikke kan lære autonomt uten ekstern input. Uavhengig verifisering stiller spørsmål ved OpenAIs resultater, og antyder at o3 ble finjustert på ARC-treningsdata. Forskere foreslår å teste disse systemene i nye miljøer utenfor ARC for å bekrefte deres abstraksjon og resonneringsevner. Chollets team utvikler en ny benchmark utfordrende for o3, mens mennesker enkelt kunne løse de fleste oppgaver, som understreker gapet mellom nåværende AI og ekte AGI.

News source

Watch video about

OpenAI o3-modellens gjennombrudd på ARC-AGI-benchmark: Et skritt mot avansert AI

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

OpenAI o3-modellens gjennombrudd på ARC-AGI-benchmark: Et skritt mot avansert AI

Brief news summary

News source

Watch video about

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Content Maker

Last news

Skiftet fra AI-genererte annonser til menneskesentrert historiefortelling i reklame

Ensight lanserer ENSI: AI-drevet salgsassistent som revolusjonerer salg av livsforsikring

Transformasjon av SEO for AI-æraen: Bruke agentisk AI for å fremme merkevareoppdagelse og beslutningsprosesser

The Best for your Business

Hot news

Mennesker tilbake til markedsføring?

Ensight lanserer ENSI: AI-drevet salgsassistent f…

Implementering av Agentic AI for SEO: En veiledni…

Microsoft og NVIDIA lanserer UK-senter for å driv…

HeyGen's AI-nyhetsvideo-generator forvandlerr nyh…

Briff.ai avduker AI-drevne verktøy for markedsfør…

AI-verktøy for videogenerering: Transformerer inn…

AI Company

Sales

Marketing

OpenAI o3-modellens gjennombrudd på ARC-AGI-benchmark: Et skritt mot avansert AI

Brief news summary

News source

Watch video about

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator. Let’s make a post or video and publish it on any social media — ready?

Content Maker

Last news

Skiftet fra AI-genererte annonser til menneskesentrert historiefortelling i reklame

Ensight lanserer ENSI: AI-drevet salgsassistent som revolusjonerer salg av livsforsikring

Transformasjon av SEO for AI-æraen: Bruke agentisk AI for å fremme merkevareoppdagelse og beslutningsprosesser

The Best for your Business

Hot news

Mennesker tilbake til markedsføring?

Ensight lanserer ENSI: AI-drevet salgsassistent f…

Implementering av Agentic AI for SEO: En veiledni…

Microsoft og NVIDIA lanserer UK-senter for å driv…

HeyGen's AI-nyhetsvideo-generator forvandlerr nyh…

Briff.ai avduker AI-drevne verktøy for markedsfør…

AI-verktøy for videogenerering: Transformerer inn…

AI Company

Your News is ready

Your article is ready

Generating video takes longer than text.

Join our community of experts

Reasons why you should be part of the experts community

Welcome to Neuron Expert!

Check your email

Launch Your AI-Powered Business

AI Marketing Across All Social Media

AI Sales Manager + CRM

Support

Content Maker

Topic

Specify the topic (Optional)

Link (Optional)

Learn how to craft press releases, create unique social media posts, write SEO-optimized articles for websites, and produce videos, all from a single source

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?