lang icon English
Dec. 24, 2024, 5:49 p.m.
4608

OpenAI o3-modellens gjennombrudd på ARC-AGI-benchmark: Et skritt mot avansert AI

Brief news summary

OpenAIs o3-modell markerer et betydelig framskritt innen kunstig intelligens, med en score på 75,7 % på ARC-AGI-benchmarken, mens dens høyberegningsvariant når imponerende 87,5 %. ARC-AGI vurderer en AIs evne til å håndtere nye og komplekse visuelle oppgaver, noe som fremhever adaptiv intelligens. Til tross for denne fremgangen kvalifiserer o3 seg ennå ikke som ekte generell kunstig intelligens (AGI) siden den fortsatt har problemer med enkle oppgaver og krever menneskelig veiledning for resonnement. Tidligere var den høyeste ARC-AGI-scoren 53 %, oppnådd ved bruk av en kombinasjon av modeller og genetiske algoritmer. François Chollet, arkitekten bak ARC, anser o3 som et stort sprang i adaptiv AI, og ikke bare som en inkrementell fremgang. Selv om o3 krever betydelig beregningskraft, forventes det at disse kravene vil avta over tid. Modellens suksess kan knyttes til "programsyntese", som innebærer å lage små programmer for å løse oppgaver. Det er pågående diskusjoner om å inkorporere forsterkende læring og søkestrategier i modellen, selv om detaljer om arkitekturen forblir uavslørte. Selv om o3s prestasjoner på ARC-AGI er bemerkelsesverdige, tilsvarer de ikke AGI. Eksperter, inkludert Chollet, understreker at å prestere godt på ARC-AGI ikke er det samme som å oppnå AGI. Nye utfordringer er under utvikling for å bedre evaluere AI-modeller, spesielt deres tilpasningsevne utover de innledende treningsscenariene. Disse innsatsene antyder et skifte i AI-trening og evaluering, som indikerer fremgang mot AGI, selv om det endelige målet ennå ikke har blitt nådd.

OpenAIs o3-modell har gjort et overraskende gjennombrudd innen AI ved å oppnå 75, 7 % på ARC-AGI-benchmarket, med en forbedret versjon som når 87, 5 %. Selv om dette er imponerende, indikerer det ikke ankomsten av kunstig generell intelligens (AGI). ARC-AGI-benchmarket, forankret i Abstract Reasoning Corpus, tester AIs evne i komplekse, nye oppgaver med visuelle puslespill. Det er utfordrende på grunn av sin design, som unngår brute-force-løsninger gjennom enkel datatrening. Benchmarket inkluderer et offentlig treningssett med 400 eksempler og mer utfordrende evalueringssett. Private og semi-private testsett sikrer ytterligere objektiv evaluering uten å eksponere AI for tidligere kunnskap. Tidligere nådde OpenAIs o1 kun 32 % på ARC-AGI, og forskeren Jeremy Bermans metode oppnådde 53 %. François Chollet, skaperen av ARC, beskriver o3s ytelse som et stort sprang innen AI, som viser tilpasningsevne tidligere usett i GPT-modeller. Til tross for den betydelige oppmerksomheten rundt o3, er det ikke betydelig større enn tidligere modeller, som markerer det som en ekte kvalitativ forbedring snarere enn kun en inkrementell fremgang.

Det påløper imidlertid høye kostnader: $17 til $20 og 33 millioner tokens per puslespill for lav-beregning, og øker betydelig for høye beregningsinnstillinger. Chollet understreker "programsyntese" for å løse nye problemer, som involverer små, kombinerbare programmer. Selv om det er få detaljer om o3s mekanismer, inkluderer gjetninger tankerekke-resonnement med søkemekanismer og forsterkningslæring (RL) for løsningstesting, selv om det er blandede syn på dette blant eksperter. Til tross for navnet, er ikke ARC-AGI en test for AGI. Chollet hevder at selv om o3 har avanserte kapasiteter, er det ikke AGI da det fortsatt mislykkes i enkle oppgaver og ikke kan lære autonomt uten ekstern input. Uavhengig verifisering stiller spørsmål ved OpenAIs resultater, og antyder at o3 ble finjustert på ARC-treningsdata. Forskere foreslår å teste disse systemene i nye miljøer utenfor ARC for å bekrefte deres abstraksjon og resonneringsevner. Chollets team utvikler en ny benchmark utfordrende for o3, mens mennesker enkelt kunne løse de fleste oppgaver, som understreker gapet mellom nåværende AI og ekte AGI.


Watch video about

OpenAI o3-modellens gjennombrudd på ARC-AGI-benchmark: Et skritt mot avansert AI

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today