Jan. 14, 2025, 7:39 p.m.

OpenAI-jev o3 model obara rekorde na ARC-AGI testu.

Brief news summary

Najnoviji chatbot kompanije OpenAI, o3, predstavlja veliki napredak u vještačkoj inteligenciji, postižući rezultat od 87,5% na ARC-AGI testu—znatno veći od prethodnog najboljeg rezultata od 55,5%. François Chollet, koji je razvio test, smatra ovo značajnim iskorakom zbog pojačanih sposobnosti rezonovanja i generalizacije o3. Uprkos tom napretku, o3 još uvijek ne kvalifikuje kao opća vještačka inteligencija (AGI), iako postiže dobre rezultate na drugim procjenama poput FrontierMath. Efikasnost ARC-AGI testa u procjeni pravog rezonovanja je sporna. Stručnjak za AI benchmarking, David Rein, ističe teškoće u kreiranju nepristrasnih kognitivnih testova za AI. OpenAI nije otkrio detalje o arhitekturi o3, ali se sugeriše da koristi više lanaca rezonovanja za pronalaženje optimalnih rješenja—metoda koja je računski zahtjevna i zahtijeva 14 minuta po zadatku. Potraga za AGI se nastavlja bez određenog roka. Predstojeće evaluacije kao što su OpenAI-ov MLE-bench 2024 i Yue-ov MMMU fokusiraju se na procjene iz stvarnih scenarija, dajući prioritet tačnosti i energetskoj efikasnosti. Iako o3 pokazuje značajan napredak, put do postizanja AGI ostaje nejasan, ističući potrebu za naprednijim mjerilima kako bi se preciznije mjerile sposobnosti rezonovanja AI.

Eksperimentalni model chatbota kompanije OpenAI, o3, nedavno je postigao impresivnih 87. 5% na ARC-AGI testu, znatno premašivši prethodni AI rekord od 55. 5%. Ovo predstavlja značajan korak ka Opštoj veštačkoj inteligenciji (AGI), koja se definiše kao sistem sposoban za zaključivanje, planiranje i učenje na nivou ljudi. Istraživač AI-a François Chollet, koji je razvio ARC-AGI test, priznaje značajne sposobnosti zaključivanja i generalizacije modela o3, iako napominje da AGI još nije potpuno ostvarena. Model o3 je briljirao na različitim ispitivanjima, kao što je zahtevni test FrontierMath od strane Epoch AI. Međutim, David Rein i drugi stručnjaci ostaju skeptični u pogledu toga da li ARC-AGI tačno meri sposobnosti AI-a za zaključivanje i generalizaciju, i ističu potrebu za boljim procenama. OpenAI nije objavio detalje o funkcionisanju modela o3, ali on prati 'lanac misli' logiku modela o1. Neki pretpostavljaju da o3 generiše više lanaca zaključivanja kako bi došao do najboljeg odgovora. Uprkos visokom performansu, proces testiranja o3 je skup i vremenski zahtevan, zahtevajući oko 14 minuta po zadatku, što izaziva zabrinutost zbog održivosti. Koncept AGI nema preciznu definiciju, što otežava postizanje konsenzusa o tome kada bi AI mogao da ga dostigne.

Razvijaju se različiti testovi kako bi se pratilo napredovanje, kao što su Reinov Googlu-neprobojni Q&A i predstojeći OpenAI-ov MLE-bench iz 2024. godine, koji izaziva AI sa problemima iz stvarnog sveta. Dobri merni testovi moraju osigurati da AI nije naišao na pitanja testiranja tokom obuke i zahtevaju pravo zaključivanje bez prečica. Xiang Yue naglašava važnost uslova iz stvarnog sveta i energetske efikasnosti u testovima. Yueov MMMU merni test procenjuje chatbote na zadacima univerzitetskog nivoa, pri čemu OpenAI-ov o1 drži trenutni rekord od 78. 2%. Nasuprot tome, ARC-AGI se fokusira na osnovne veštine kao što su matematika i prepoznavanje obrazaca, pružajući učesnicima testa transformacije dizajna za zaključivanje ishoda. Yue ceni jedinstvenu perspektivu ARC-AGI u proceni sposobnosti AI-a.

News source

Watch video about

OpenAI-jev o3 model obara rekorde na ARC-AGI testu.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

OpenAI-jev o3 model obara rekorde na ARC-AGI testu.

Brief news summary

News source

Watch video about

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Hot news

Janek Performance Group pokreće JeniusCC: platfor…

Teslaov AI Autopilot postiže nivo 5 autonomne vož…

MagicFlixAI automatski kreira 'bezlicne' video ka…

Genius Sports i Pac-12 sklapaju partnerstvo u obl…

Fiverr pokreće AI Video Hub kako bi revolucionali…

Metaov program za licenciranje AI sadržaja prošir…

Decouple uvodi alat za rezanje vijesti uz pomoć u…

AI Company

Sales

Marketing

OpenAI-jev o3 model obara rekorde na ARC-AGI testu.

Brief news summary

News source

Watch video about

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator. Let’s make a post or video and publish it on any social media — ready?

Hot news

Janek Performance Group pokreće JeniusCC: platfor…

Teslaov AI Autopilot postiže nivo 5 autonomne vož…

MagicFlixAI automatski kreira 'bezlicne' video ka…

Genius Sports i Pac-12 sklapaju partnerstvo u obl…

Fiverr pokreće AI Video Hub kako bi revolucionali…

Metaov program za licenciranje AI sadržaja prošir…

Decouple uvodi alat za rezanje vijesti uz pomoć u…

AI Company

Your News is ready

Your article is ready

Generating video takes longer than text.

Join our community of experts

Reasons why you should be part of the experts community

Welcome to Neuron Expert!

Check your email

Launch Your AI-Powered Business

AI Marketing Across All Social Media

AI Sales Manager + CRM

Support

Content Maker

Topic

Specify the topic (Optional)

Link (Optional)

Learn how to craft press releases, create unique social media posts, write SEO-optimized articles for websites, and produce videos, all from a single source

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?