lang icon En
Jan. 14, 2025, 7:39 p.m.
2836

OpenAI-jev o3 model obara rekorde na ARC-AGI testu.

Brief news summary

Najnoviji chatbot kompanije OpenAI, o3, predstavlja veliki napredak u vještačkoj inteligenciji, postižući rezultat od 87,5% na ARC-AGI testu—znatno veći od prethodnog najboljeg rezultata od 55,5%. François Chollet, koji je razvio test, smatra ovo značajnim iskorakom zbog pojačanih sposobnosti rezonovanja i generalizacije o3. Uprkos tom napretku, o3 još uvijek ne kvalifikuje kao opća vještačka inteligencija (AGI), iako postiže dobre rezultate na drugim procjenama poput FrontierMath. Efikasnost ARC-AGI testa u procjeni pravog rezonovanja je sporna. Stručnjak za AI benchmarking, David Rein, ističe teškoće u kreiranju nepristrasnih kognitivnih testova za AI. OpenAI nije otkrio detalje o arhitekturi o3, ali se sugeriše da koristi više lanaca rezonovanja za pronalaženje optimalnih rješenja—metoda koja je računski zahtjevna i zahtijeva 14 minuta po zadatku. Potraga za AGI se nastavlja bez određenog roka. Predstojeće evaluacije kao što su OpenAI-ov MLE-bench 2024 i Yue-ov MMMU fokusiraju se na procjene iz stvarnih scenarija, dajući prioritet tačnosti i energetskoj efikasnosti. Iako o3 pokazuje značajan napredak, put do postizanja AGI ostaje nejasan, ističući potrebu za naprednijim mjerilima kako bi se preciznije mjerile sposobnosti rezonovanja AI.

Eksperimentalni model chatbota kompanije OpenAI, o3, nedavno je postigao impresivnih 87. 5% na ARC-AGI testu, znatno premašivši prethodni AI rekord od 55. 5%. Ovo predstavlja značajan korak ka Opštoj veštačkoj inteligenciji (AGI), koja se definiše kao sistem sposoban za zaključivanje, planiranje i učenje na nivou ljudi. Istraživač AI-a François Chollet, koji je razvio ARC-AGI test, priznaje značajne sposobnosti zaključivanja i generalizacije modela o3, iako napominje da AGI još nije potpuno ostvarena. Model o3 je briljirao na različitim ispitivanjima, kao što je zahtevni test FrontierMath od strane Epoch AI. Međutim, David Rein i drugi stručnjaci ostaju skeptični u pogledu toga da li ARC-AGI tačno meri sposobnosti AI-a za zaključivanje i generalizaciju, i ističu potrebu za boljim procenama. OpenAI nije objavio detalje o funkcionisanju modela o3, ali on prati 'lanac misli' logiku modela o1. Neki pretpostavljaju da o3 generiše više lanaca zaključivanja kako bi došao do najboljeg odgovora. Uprkos visokom performansu, proces testiranja o3 je skup i vremenski zahtevan, zahtevajući oko 14 minuta po zadatku, što izaziva zabrinutost zbog održivosti. Koncept AGI nema preciznu definiciju, što otežava postizanje konsenzusa o tome kada bi AI mogao da ga dostigne.

Razvijaju se različiti testovi kako bi se pratilo napredovanje, kao što su Reinov Googlu-neprobojni Q&A i predstojeći OpenAI-ov MLE-bench iz 2024. godine, koji izaziva AI sa problemima iz stvarnog sveta. Dobri merni testovi moraju osigurati da AI nije naišao na pitanja testiranja tokom obuke i zahtevaju pravo zaključivanje bez prečica. Xiang Yue naglašava važnost uslova iz stvarnog sveta i energetske efikasnosti u testovima. Yueov MMMU merni test procenjuje chatbote na zadacima univerzitetskog nivoa, pri čemu OpenAI-ov o1 drži trenutni rekord od 78. 2%. Nasuprot tome, ARC-AGI se fokusira na osnovne veštine kao što su matematika i prepoznavanje obrazaca, pružajući učesnicima testa transformacije dizajna za zaključivanje ishoda. Yue ceni jedinstvenu perspektivu ARC-AGI u proceni sposobnosti AI-a.


Watch video about

OpenAI-jev o3 model obara rekorde na ARC-AGI testu.

Try our premium solution and start getting clients — at no cost to you

Content creator image

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

March 29, 2026, 2:30 p.m.

Janek Performance Group pokreće JeniusCC: platfor…

Janek Performance Group je službeno lansirao JeniusCC, poznat i kao Jenius, vrhunsku platformu vođenu umjetnom inteligencijom koja je osmišljena da transformiše performanse i produktivnost prodajnih timova.

March 29, 2026, 2:18 p.m.

Teslaov AI Autopilot postiže nivo 5 autonomne vož…

Teslaov AI Autopilot sistem postigao je revolucionarnu prekretnicu dostizanjem nivoa 5 autonomne vožnje.

March 29, 2026, 2:14 p.m.

MagicFlixAI automatski kreira 'bezlicne' video ka…

MagicFlixAI mijenja produkciju videa i upravljanje kanalima pružajući sveobuhvatnu platformu koja automatizira kreiranje i rangiranje jedinstvenih "bezličnih" video kanala na popularnim društvenim mrežama poput YouTubea i TikToka.

March 29, 2026, 2:12 p.m.

Genius Sports i Pac-12 sklapaju partnerstvo u obl…

Genius Sports, vodeći pružatelj tehnologije i usluga za sportske podatke, najavio je veliku višegodišnju saradnju sa Pac-12 konferencijom s ciljem poboljšanja integriteta, tehnologije i AI kapaciteta u koledž sportovima.

March 29, 2026, 10:33 a.m.

Fiverr pokreće AI Video Hub kako bi revolucionali…

Fiverr, vodeće online tržište za freelance usluge, je predstavio AI Video Hub, kuriranu platformu koja povezuje brendove s nezavisnim AI režiserima specijaliziranim za stvaranje kino-komercijala i brend filmova.

March 29, 2026, 10:25 a.m.

Metaov program za licenciranje AI sadržaja prošir…

Meta je značajno proširila svoj program licenciranja AI sadržaja sklapanjem partnerstava s četiri velika međunarodna izdavača vijesti: News Corp ( Australija/SAD), Francuski Le Figaro, Španska Prisa i Njemačka Süddeutsche Zeitung.

March 29, 2026, 10:21 a.m.

Decouple uvodi alat za rezanje vijesti uz pomoć u…

Decouple je pokrenuo inovativni alat za rezanje vijesti baziran na umjetnoj inteligenciji, posebno dizajniran za live informativne kanale, što predstavlja značajan napredak u načinu na koji digitalni timovi za objavljivanje upravljaju i distribuiraju vijesti.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

AI Company welcome image

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today