lang icon En
Jan. 14, 2025, 7:39 p.m.
2193

OpenAI:n o3-malli rikkoo ennätyksiä ARC-AGI-testissä

Brief news summary

OpenAIn uusin chatbot, o3, edustaa merkittävää harppausta tekoälyssä, saavuttaen 87,5 % tuloksen ARC-AGI-testissä, mikä on huomattavasti korkeampi kuin edellinen paras tulos, 55,5 %. Testin kehittäjä François Chollet pitää tätä merkittävänä läpimurtona o3:n parantuneiden päättely- ja yleistämiskykyjen vuoksi. Tästä edistymisestä huolimatta o3 ei vielä täytä yleisen tekoälyn (AGI) kriteerejä, vaikka se suoriutuu hyvin muissakin arvioinneissa, kuten FrontierMathissa. ARC-AGI-testin kyky arvioida todellista päättelyä on kiistanalainen. Tekoälytestauksen asiantuntija David Rein korostaa puolueettomien kognitiivisten testien luomisen vaikeutta tekoälylle. OpenAI ei ole paljastanut o3:n arkkitehtuurin yksityiskohtia, mutta vihjataan, että o3 hyödyntää useita päättelyketjuja optimaalisten ratkaisujen löytämiseksi—aikaan vievä menetelmä, joka vaatii 14 minuuttia tehtävää kohden. AGI:n tavoittelu jatkuu ilman tarkkaa aikataulua. Tulevat arvioinnit, kuten OpenAIn vuoden 2024 MLE-bench ja Yuen MMMU, keskittyvät reaaliaikaisten tilanteiden arviointeihin painottaen tarkkuutta ja energiatehokkuutta. Vaikka o3 osoittaa merkittävää edistystä, polku AGI:n saavuttamiseksi on edelleen epäselvä, mikä korostaa tarvetta kehittyneemmille arviointimenetelmille tekoälypäättelyn kykyjen tarkemmassa mittaamisessa.

OpenAI:n kokeellinen chatbot-malli, o3, saavutti äskettäin vaikuttavan tuloksen 87, 5 % ARC-AGI-testissä, ylittäen merkittävästi aiemman tekoälyennätyksen, joka oli 55, 5 %. Tämä merkitsee merkittävää askelta kohti yleistä tekoälyä (AGI), joka määritellään järjestelmäksi, joka kykenee ihmisen tasoiseen päättelyyn, suunnitteluun ja oppimiseen. Tekoälytutkija François Chollet, joka kehitti ARC-AGI-testin, myöntää o3:n huomattavat päättely- ja yleistämiskyvyt, vaikka hän mainitsee, ettei AGI:tä ole vielä täysin saavutettu. O3-malli on menestynyt erilaisissa testeissä, kuten haastavassa Epoch AI:n FrontierMath-testissä. Kuitenkin David Rein ja muut asiantuntijat suhtautuvat skeptisesti siihen, mittaako ARC-AGI tarkasti tekoälyn päättely- ja yleistämiskykyjä, ja vaativat parempia arviointimenetelmiä. OpenAI ei ole paljastanut yksityiskohtia o3:n toiminnasta, mutta se noudattaa o1-mallin 'ajatusketjun' logiikkaa. Jotkut spekuloivat, että o3 luo useita päättelyketjuja saadakseen parhaan vastauksen. Huolimatta korkeasta suorituskyvystään, o3:n testausprosessi on kallis ja aikaavievä, sillä se vaatii noin 14 minuuttia tehtävää kohden, mikä herättää huolta kestävyydestä. AGI-konsepti puuttuu tarkka määritelmä, mikä tekee yhteisymmärryksen saavuttamisen vaikeaksi siitä, milloin tekoäly saattaa saavuttaa sen.

Erilaisia testejä kehitetään edistymisen seuraamiseksi, kuten Reinin Google-Proof Q&A ja OpenAI:n tulossa oleva vuoden 2024 MLE-bench, joka haastaa tekoälyä tosielämän ongelmilla. Hyvien testien on varmistettava, että tekoäly ei ole kohdannut testikysymyksiä koulutuksensa aikana ja vaadittava aitoa päättelyä ilman oikoteitä. Xiang Yue korostaa testien tärkeyttä sotkuisissa, tosielämän olosuhteissa ja energiatehokkuudessa. Yuen MMMU-vertailuarvo arvioi chatbotteja yliopistotason tehtävillä, ja OpenAI:n o1 pitää hallussaan nykyistä ennätystulosta 78, 2 %. Sitä vastoin ARC-AGI keskittyy perustaidoihin, kuten matematiikkaan ja kuviontunnistukseen, antaen testaajille suunnittelumuunnoksia päätelmien tekemiseksi. Yue arvostaa ARC-AGI:n ainutlaatuista näkökulmaa tekoälykykyjen arvioinnissa.


Watch video about

OpenAI:n o3-malli rikkoo ennätyksiä ARC-AGI-testissä

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 25, 2025, 1:36 p.m.

Demokraatit varoittavat, että Trumpin lupautumine…

Kongressin demokraatit ilmaisevat vakavaa huolta siitä, että Yhdysvallat saattaa pian alkaa myydä kehittyneitä siruja yhtenä tärkeimmistä geopoliittisista kilpailijoistaan.

Dec. 25, 2025, 1:33 p.m.

Itsemääräämisoikeusviranomaiset valmistautuneet H…

Tod Palmer, KSHB 41:n urheiluliiketoimintaa ja eastern Jacksonin piiriä käsittelevä reportteri, oppi tästä merkittävästä projektista seuraten Independencein kaupunginvaltuuston aiheeseen liittyvää aluetyötään.

Dec. 25, 2025, 1:31 p.m.

Tekoälypohjainen videovalvonta herättää yksityisy…

Tekoälyn (AI) käyttöönotto videovalvonnassa on muodostunut keskeiseksi aiheeksi päättäjien, teknologia-asiantuntijoiden, kansalaisoikeus-aktivistien ja yleisön keskuudessa.

Dec. 25, 2025, 1:25 p.m.

Incention on epätoivoinen yritys luoda uusi Holly…

Epäilen, ettet tarvitse muistaa Incention-nimeä kauan, sillä on epätodennäköistä, että se tulee mieleen uudestaan tämän jälkeen.

Dec. 25, 2025, 1:23 p.m.

2025:n viisi tärkeintä markkinointitarinaa:Tullit…

Vuosi 2025 osoittautui markkinoijille kaoottiseksi, sillä makrotaloudelliset muutokset, teknologiset edistysaskeleet ja kulttuuriset vaikutteet muunsivat alaäkillisesti.

Dec. 25, 2025, 1:17 p.m.

tekoälyteknologiaan perustuvat SEO-yritykset saav…

AI-voimautetut SEO-yritykset odotetaan kasvavan entistä tärkeämmiksi vuonna 2026, mikä johtaa korkeampiin sitoutumisasteisiin ja parempiin konversioihin.

Dec. 25, 2025, 9:43 a.m.

Tekoälypohjaiset videokompression tekniikat paran…

Keinostuminen tekoälyssä muuttaa tapaa, jolla videosisältöä pakataan ja suoratoistetaan, tuoden merkittäviä parannuksia videon laatuun ja käyttökokemukseen.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today