OpenAI o3 líkans bylting á ARC-AGI viðmiðinu: Skref í átt að háþróaðri gervigreind

O3 líkan OpenAI hefur gert óvænt framfarir í gervigreind með því að ná 75, 7% á ARC-AGI viðmiðuninni, þar sem endurbætt útgáfa nær 87, 5%. Þótt þetta sé áhrifamikið, bendir það ekki til þess að við séum komin með almenna gervigreind (AGI). ARC-AGI viðmiðun, sem grundvallast á Abstract Reasoning Corpus, prófar getu gervigreindar við flókin, ný verkefni með sjónþrautum. Þetta er erfitt vegna hönnunar sem forðast einfalda gagnalausnir með þjálfun gagna. Viðmiðið inniheldur opinþjálfunardæmi með 400 dæmum og krefjandi matssett. Einkarekna og hálf-opin prófunarsöfn tryggja frekari hlutlausa mat án þess að gefa AI fyrri almenna þekkingu. Áður náði o1 frá OpenAI aðeins 32% á ARC-AGI, og aðferðafræði Jeremy Berman náði 53%. François Chollet, höfundur ARC, lýsir frammistöðu o3 sem stórum áfanga í gervigreind, sem sýnir aðlögunarhæfni sem áður hefur verið óþekkt í GPT líkani. Þrátt fyrir mikla athygli í kringum o3, er það ekki verulega stærra en fyrrum módel, sem merkir raunverulega gæðabreytingu frekar en einfaldan smávægilegan framför.
Þó felur það í sér mikinn kostnað: $17 til $20 og 33 milljónir tákna á þraut fyrir lágróf, sem eykst til muna í hágrófar umhverfi. Chollet leggur áherslu á „forritasamsetningu“ til að leysa ný vandamál, sem felur í sér litlar, samsettar forritseiningar. Þótt fáar upplýsingar séu til um vélvirki o3, eru tilgátur um keðjuröksemdafærslu með leitaraðferðum og styrkingarnám til endurbóta, þótt misjöfn sjónarmið séu meðal sérfræðinga um þetta. Þrátt fyrir nafn sitt er ARC-AGI ekki próf fyrir AGI. Chollet segir að þó o3 hafi aukið hæfileika sé það ekki AGI þar sem það bregst einföld verkefni og getur ekki lært sjálfstætt án ytri inngripa. Sjálfstæð eftirfylgd efast um niðurstöður OpenAI, bendandi til þess að o3 hafi verið fínstillt á ARC þjálfunargögn. Rannsakendur leggja til að prófa þessi kerfi í nýjum umhverfum utan ARC til að staðfesta abstraksjónir þeirra og rökfærnisfærni. Hóp Chollet er að þróa nýtt viðmiðunarpróf fyrir o3, en menn geta leyst flest svr puzzles auðveldlega, sem undirstrikar bilið milli núverandi gervigreindar og sannrar AGI.
Brief news summary
O3 líkanið frá OpenAI markar umtalsvert skref fram á við í gervigreind, með því að ná 75,7% skori á ARC-AGI viðmiðinu, á meðan afbrigði þess með mikla útreikninga nær glæsilegum 87,5%. ARC-AGI metur getu gervigreindar til að ráða við ný og flókin sjónræn verkefni, og leggur áherslu á aðlögunarhæfni greindar. Þrátt fyrir þessa framvindu er o3 enn ekki raunveruleg almenn gervigreind (AGI) þar sem það á í erfiðleikum með einföld verkefni og þarf enn mannlega leiðsögn til rökhugsunar. Fyrra hæsta ARC-AGI skor var 53%, náð með blöndu af líkönum og erfðaforritun. François Chollet, hönnuður ARC, álítur o3 vera mikilvægt stökk í aðlögun greindar, sem fer fram úr einföldum viðbótarframförum. Þó að o3 krefjist mikilla útreikninga, er búist við að þessar kröfur minnki með tímanum. Árangur líkansins gæti tengst "forritasamþættingu," sem felur í sér að búa til lítil forrit til að leysa verkefni. Umræða stendur yfir um að samþætta styrkingarnám og leitaraðferðir í líkanið, þó að smáatriði um arkitektúr þess séu ekki opinberuð. Þó að árangur o3 í ARC-AGI sé eftirtektarverður, jafngildir hann ekki AGI. Sérfræðingar, þar á meðal Chollet, leggja áherslu á að framúrskarandi árangur í ARC-AGI samsvari ekki ná AGI. Ný verkefni eru í þróun til að meta betur gervigreindarlíkön, sérstaklega aðlögunarhæfni þeirra umfram upphafleg þjálfunarsvið. Þessi vinna bendir til breytinga í þjálfun og mati á gervigreind, sem gefur til kynna framvindu í átt að AGI, þó að lokamarkinu sé enn ekki náð.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Oracle kaupir 40 milljarða dala virka Nvidia örgj…
Oracle stendur fyrir stórfelldu fjárfestingaráætlun upp á 40 milljarða dollara til að kaupa um það bil 400.000 Nvidia GB200 háþróuð skömmtikíki til að knýja fram væntanlegt gagnameðstöð OpenAI í Abilene, Texas.

Það er launspólur: framtíð Web3 er ekki blokkakeð…
Álit Grigore Roșu, stofnanda og forstjóri Pi Squared Að ógagnrýna yfirráð verkkólfa í Web3 gæti verið nærri því að vera fyrirlestur, sérstaklega fyrir þá sem eru djúpt færðir í Bitcoin, Ethereum og tilheyrandi tækni

Stórt truflun á störfum í Stóru gervigreindinni e…
Áhugaværi vinnumarkaðurinn er í stórkostlegri umbreytingum sem ræðst af ört vaxandi notkun gervigreindar (AI) í mörgum atvinnugreinum.

Vöxtur markaðar fyrir blokkkeðjur í eignastjórnun…
Vöxtur og framtíðarhorfur markaðarins fyrir blockchain í eignastjórn (2025–2034) Markaður fyrir blockchain í eignastjórnun nýtir tækni blockchain til að bæta gagnsæi, öryggi og skilvirkni við stjórnun fjármagnslegra eigna

Nvidia-Foxconn samstarf vekur alþjóðlegar áhyggjur
Á Computex 2025 viðskiptasýningunni í Taipei h óf Nvidia forstjórinn Jensen Huang við inngöngu sína einhvers konar stjörnuhátíð, sem undirstrikar dýpka tengsl Nvidia við Taívan.

DeFi fjárfestar strömmuhlaðast inn í Hyperliquid …
Kriptainnisták á Hyperliquid-snákneti, sem er aðeins þriggja mánaða gamalt, eru að vaxa verulega, aðallega bennt áfjárfestingar frá DeFi-protokólum og þátttakendum.

Oracle mun fjárfesta 40 milljörðum dollara í Nvid…
Oracle hyggst fjárfesta um 40 milljarða dollara til að kaupa nýjustu GB200 örgjörva Nvidia fyrir nýtt gagnaver sem verið er að þróa í Abilene, Texas, til stuðnings OpenAI.