OpenAI-jev o3 model obara rekorde na ARC-AGI testu.
Brief news summary
Najnoviji chatbot kompanije OpenAI, o3, predstavlja veliki napredak u vještačkoj inteligenciji, postižući rezultat od 87,5% na ARC-AGI testu—znatno veći od prethodnog najboljeg rezultata od 55,5%. François Chollet, koji je razvio test, smatra ovo značajnim iskorakom zbog pojačanih sposobnosti rezonovanja i generalizacije o3. Uprkos tom napretku, o3 još uvijek ne kvalifikuje kao opća vještačka inteligencija (AGI), iako postiže dobre rezultate na drugim procjenama poput FrontierMath. Efikasnost ARC-AGI testa u procjeni pravog rezonovanja je sporna. Stručnjak za AI benchmarking, David Rein, ističe teškoće u kreiranju nepristrasnih kognitivnih testova za AI. OpenAI nije otkrio detalje o arhitekturi o3, ali se sugeriše da koristi više lanaca rezonovanja za pronalaženje optimalnih rješenja—metoda koja je računski zahtjevna i zahtijeva 14 minuta po zadatku. Potraga za AGI se nastavlja bez određenog roka. Predstojeće evaluacije kao što su OpenAI-ov MLE-bench 2024 i Yue-ov MMMU fokusiraju se na procjene iz stvarnih scenarija, dajući prioritet tačnosti i energetskoj efikasnosti. Iako o3 pokazuje značajan napredak, put do postizanja AGI ostaje nejasan, ističući potrebu za naprednijim mjerilima kako bi se preciznije mjerile sposobnosti rezonovanja AI.Eksperimentalni model chatbota kompanije OpenAI, o3, nedavno je postigao impresivnih 87. 5% na ARC-AGI testu, znatno premašivši prethodni AI rekord od 55. 5%. Ovo predstavlja značajan korak ka Opštoj veštačkoj inteligenciji (AGI), koja se definiše kao sistem sposoban za zaključivanje, planiranje i učenje na nivou ljudi. Istraživač AI-a François Chollet, koji je razvio ARC-AGI test, priznaje značajne sposobnosti zaključivanja i generalizacije modela o3, iako napominje da AGI još nije potpuno ostvarena. Model o3 je briljirao na različitim ispitivanjima, kao što je zahtevni test FrontierMath od strane Epoch AI. Međutim, David Rein i drugi stručnjaci ostaju skeptični u pogledu toga da li ARC-AGI tačno meri sposobnosti AI-a za zaključivanje i generalizaciju, i ističu potrebu za boljim procenama. OpenAI nije objavio detalje o funkcionisanju modela o3, ali on prati 'lanac misli' logiku modela o1. Neki pretpostavljaju da o3 generiše više lanaca zaključivanja kako bi došao do najboljeg odgovora. Uprkos visokom performansu, proces testiranja o3 je skup i vremenski zahtevan, zahtevajući oko 14 minuta po zadatku, što izaziva zabrinutost zbog održivosti. Koncept AGI nema preciznu definiciju, što otežava postizanje konsenzusa o tome kada bi AI mogao da ga dostigne.
Razvijaju se različiti testovi kako bi se pratilo napredovanje, kao što su Reinov Googlu-neprobojni Q&A i predstojeći OpenAI-ov MLE-bench iz 2024. godine, koji izaziva AI sa problemima iz stvarnog sveta. Dobri merni testovi moraju osigurati da AI nije naišao na pitanja testiranja tokom obuke i zahtevaju pravo zaključivanje bez prečica. Xiang Yue naglašava važnost uslova iz stvarnog sveta i energetske efikasnosti u testovima. Yueov MMMU merni test procenjuje chatbote na zadacima univerzitetskog nivoa, pri čemu OpenAI-ov o1 drži trenutni rekord od 78. 2%. Nasuprot tome, ARC-AGI se fokusira na osnovne veštine kao što su matematika i prepoznavanje obrazaca, pružajući učesnicima testa transformacije dizajna za zaključivanje ishoda. Yue ceni jedinstvenu perspektivu ARC-AGI u proceni sposobnosti AI-a.
Watch video about
OpenAI-jev o3 model obara rekorde na ARC-AGI testu.
Try our premium solution and start getting clients — at no cost to you