lang icon English
Jan. 14, 2025, 7:39 p.m.
1898

OpenAI o3 mudel purustab ARC-AGI testi rekordeid.

Brief news summary

OpenAI uusim vestlusbot, o3, tähistab suurt edasiminekut tehisintellektis, saavutades ARC-AGI testil 87,5% skoori—märkimisväärselt kõrgem kui varasem parim tulemus 55,5%. François Chollet, kes testi välja töötas, peab seda märkimisväärseks läbimurdeks tänu o3 suurenenud arutlus- ja üldistusvõimele. Hoolimata sellest edusammust ei kvalifitseeru o3 veel tehisüldintellektiks (AGI), kuigi see annab häid tulemusi ka teistel hindamistel nagu FrontierMath. ARC-AGI testi tõhusus tõelise arutluse hindamisel on vaidlustatud. Tehisintellekti võrdlusnäitajate ekspert David Rein toob esile raskused erapooletute kognitiivsete testide loomisel tehisintellekti jaoks. Kuigi OpenAI ei ole avaldanud o3 arhitektuuri üksikasju, on vihjatud, et o3 kasutab mitut arutlusahelat optimaalsete lahenduste leidmiseks—meetod, mis on arvutuslikult nõudlik, nõudes iga ülesande lahendamiseks 14 minutit. AGI poole püüdlemine jätkub ilma määratletud tähtajata. Eesootavad hindamised nagu OpenAI 2024 MLE-bench ja Yue MMMU keskenduvad reaalses elus esinevate olukordade hindamisele, pidades esmatähtsaks täpsust ja energiatõhusust. Kuigi o3 näitab märkimisväärset edasiminekut, jääb tee AGI saavutamiseni ebaselgeks, tuues esile vajaduse arenenumate võrdlusnäitajate järele, et täpsemalt mõõta tehisintellekti arutlusvõimeid.

OpenAI eksperimentaalne vestlusroboti mudel o3 saavutas hiljuti ARC-AGI testis muljetavaldava 87, 5%, ületades oluliselt eelmise tehisintellekti rekordi 55, 5%. See on märkimisväärne samm üldtehisintellekti (AGI) suunas, mida defineeritakse kui süsteemi, mis suudab põhjendada, planeerida ja õppida inimeste tasemel. Tehisintellekti uurija François Chollet, kes töötas välja ARC-AGI testi, tunnustab o3 märkimisväärseid põhjendamis- ja üldistamisvõimeid, kuid ta märgib, et AGI pole veel täielikult realiseerunud. O3 mudel on saavutanud edu mitmetel etalonidel, nagu näiteks Epoch AI keeruline FrontierMath test. Siiski on David Rein ja teised eksperdid skeptilised, kas ARC-AGI mõõdab täpselt tehisintellekti põhjendamis- ja üldistamisvõimeid, ning rõhutavad paremate hindamismeetodite vajalikkust. OpenAI ei ole avaldanud üksikasju o3 toimimise kohta, kuid see järgib o1 mudeli 'mõttekäigu' loogikat. Mõned arvavad, et o3 loob mitu põhjenduskäiku, et leida parim vastus. Hoolimata kõrgest jõudlusest on o3 testimisprotsess kulukas ja aeganõudev, nõudes ülesande kohta umbes 14 minutit, mis tekitab muret jätkusuutlikkuse pärast. AGI kontseptsioonil puudub täpne määratlus, mistõttu puudub ka üksmeel selles, millal tehisintellekt võib selle saavutada.

Edusammude jälgimiseks töötatakse välja mitmeid teste, nagu Rein'i Google-Proof KKK ja OpenAI tulevane 2024 MLE-bench, mis seab tehisintellekti reaalses maailmas esinevate probleemide ette. Hea etalon peab tagama, et tehisintellekt pole treeningu ajal katseküsimusi kohanud, ning nõudma tõelist põhjendamist ilma lühiteedeta. Xiang Yue rõhutab, kui oluline on testides arvestada segaste, reaalse maailma tingimuste ja energiatõhususega. Yue MMMU etalon hindab vestlusroboteid ülikoolitaseme ülesannete põhjal, kus OpenAI o1 hoiab praegust rekordtulemust 78, 2%. Vastupidiselt keskendub ARC-AGI põhioskustele nagu matemaatika ja mustrituvastus, pakkudes katseisikutele disainimuutuste abil järelduste tegemist. Yue hindab ARC-AGI unikaalset perspektiivi tehisintellekti võimete hindamisel.


Watch video about

OpenAI o3 mudel purustab ARC-AGI testi rekordeid.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Nov. 17, 2025, 5:24 a.m.

Tehisintellekti ettevõte väidab, et Hiina spiooni…

Anthropic, AI vestlusrobot Claude'i looja, väidab, et on tuvastanud Hiina valitsusega seotud häkkerid, kes kasutasid nende tööriista automatiseeritud küberrünnakute läbiviimiseks umbes 30 üle maailma organisatsioonile.

Nov. 17, 2025, 5:22 a.m.

Tehisintellekti video tihendusmeetodid parandavad…

Tänapäeva digitaalses maastikus, kus videokasutus on kõikide aegade kõrgeim, püüavad voogedastusteenused parandada kasutajakogemust ja optimeerida ressursse.

Nov. 17, 2025, 5:22 a.m.

SES AI Corporation teeb koostööd Hyundai Motor Gr…

SES AI Corporation ja Hyundai Motor Group on hiljuti sõlminud olulise partnerluse, mille eesmärk on ühiselt arendada liitium-metalli akute B-mudelit, märgistades strateegilise sammu järgmise põlvkonna akutehnoloogiate edendamisel, eriti elektrisõidukite (EL) valdkonnas.

Nov. 17, 2025, 5:14 a.m.

AI-põhised turundusstrateegiad: Mängumuutja ettev…

Tehisintelligents (TI) kujundab turundusvaldkonda sügavalt, tuues turule innovatiivseid tööriistu, mis suurendavad klienditegevust ning optimeerivad reklaamikampaaniaid.

Nov. 17, 2025, 5:14 a.m.

eBay'i tehisintellektiga juhitud musta reede muud…

Kuna Musta Reede ja Küber Esmaspäev 2025 läheneb, rakendab eBay olulisi poliitikamuudatusi, mis suunatud suurema müügivõimega müüjatele, sh kohandatud kuulutuste piirangud ja täiustatud reklaamivahendid.

Nov. 17, 2025, 5:12 a.m.

Andmed: tõlgitud veebisaidid näevad AI ülevaadete…

See postitus oli sponsorlusest Weglot ning väljendatud arvamused on sponsori omad.

Nov. 16, 2025, 1:28 p.m.

Tehisintellekti videoväljaanalüüs parandab sportv…

Spordiedastajad ülemaailmselt kasutavad kiiresti tehisintellekti (TI) videolüüsi, et muuta otseülekanded mängude esitlemisel ning pakkuda rikkalikumat arusaama ja suuremat naudingut spordisündmustest.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today