lang icon En
Jan. 14, 2025, 7:39 p.m.
2225

OpenAI-ийн o3 загвар ARC-AGI тестийн дээд амжилтыг эвдлээ.

Brief news summary

OpenAI-ийн хамгийн сүүлийн үеийн чатбот o3 нь хиймэл оюун ухааны гайхамшигт дэвшлийг харуулж, ARC-AGI тест дээр 87.5% оноо авчээ. Энэ нь өмнөх 55.5%-ийн хамгийн сайн онооноос илт өндөр үзүүлэлт юм. Энэ тестийг зохион бүтээсэн Франсуа Шоллет үүнийг төлөвшсөн шалтгаантыг сайжруулсан, ерөнхий ойлголтыг нэмэгдүүлэх онцлогтой o3 гэж үздэг. Энэ ахиц дэвшлээс үл хамааран o3 нь хиймэл ерөнхий оюун ухаан (AGI) шахам хараахан хүрээгүй боловч FrontierMath гэх мэт өөр шалгалтанд сайн гүйцэтгэлтэй байдаг. ARC-AGI тестийн жинхэнэ шалтгааныг үнэлэх үр дүн улам бүр маргаантай болж байна. AI-гийн үнэлгээний мэргэжилтэн Дэвид Рейн AI-д зориулсан сэтгэн бодох чадварыг үнэн зөв хэмжих тест зохиохын болон өрсөхгүй байх хэцүүтэйг тодруулдаг. OpenAI o3-ийн архитектурын нарийн мэдээллийг дэлгээгүй ч o3 нь оновчтой шийдлүүдийг олохын тулд олон дүгнэлтийн гинжин хэлхээ хэрэглэдэг гэдэг нь санал болгосон байна. Энэ арга нь их хэмжээний тооцоолол шаарддаг ба нэг даалгавар 14 минут ордог байна. AGI-ийн эрэл хайгуул нь тодорхой хуваарьгүй үргэлжилж байна. 2024 оны OpenAI-ийн MLE-bench, Yue-ийн MMMU гэх зэрэг ойрын ирээдүйн үнэлгээ нь бодит ертөнцийн бодит байдлыг шинжлэхэд анхаардаг ба нарийвчлал, эрчим хүчний үр ашигт анхаардаг. Хэдийгээр o3 нь ихээхэн ахиц дэвшил үзүүлж байгаа ч AGI-д хүрэх зам тодорхойгүй хэвээр байгаа нь AI шалтгаан бодох чадварыг илүү нарийн хэмжихийг шаардлагатай advanced стандартууд хэрэгтэйг харуулж байна.

OpenAI-ийн туршилтын чатботын загвар o3 саяхан ARC-AGI тест дээрээс гайхалтай 87. 5%-ийн амжилт үзүүлж, өмнөх AI рекордыг 55. 5%-иар ихээхэн давсан байна. Энэ нь хүнтэй тэнцүү түвшинд сэтгэж, төлөвлөж, суралцах чадвартай системээр тодорхойлогддог Artificial General Intelligence (AGI)-ийн чиглэлд том алхам хийсэн явдал юм. ARC-AGI тестийг зохион бүтээсэн AI судлаач François Chollet нь o3-ийн ихээхэн сэтгэн бодох болон ерөнхийлөх чадварыг хүлээн зөвшөөрч байгаа ч AGI-г бүрэн гүйцэд хэрэгжүүлэхэд хүрээгүй гэдгийг тэмдэглэжээ. O3 загвар нь Epoch AI-ийн хамгийн хэцүү FrontierMath тест зэрэг олон шалгуур дээр амжилттай байсан. Гэсэн хэдий ч David Rein болон бусад шинжээчид ARC-AGI AI-ийн сэтгэн бодох болон ерөнхийлөх чадварыг үнэн зөв хэмжиж байгаа эсэхэд эргэлзэж, илүү сайн үнэлгээ шаардлагатай байгааг уриалж байна. OpenAI нь o3-ийн үйл ажиллагааны дэлгэрэнгүй мэдээллийг задлаагүй ч энэ нь o1 загварын 'сэтгэлгээг хэлхэх' логикийг дагадаг гэж мэдэгджээ. Зарим хүмүүс o3 нь хамгийн сайн хариултыг олж авахын тулд олон сэтгэлгээний хэлхээс үүсгэдэг гэж таамаглаж байна. Өндөр гүйцэтгэлтэй байсан ч o3-ийн туршилтын процесс нь үнэтэй, цаг хугацаа их шаарддаг бөгөөд даалгавар бүрт ойролцоогоор 14 минут шаарддаг тул тогтвортой байдалд санаа зовниж байна. AGI-ийн ойлголт нь нарийн тодорхойлолтгүй тул AI үүнд хүрэх үед санал нэг байх нь ойлгомжгүй байна.

Янз бүрийн тестүүд ахиц дэвшил хянах зорилгоор хөгжүүлэгдэж байгаа бөгөөд Rein-ийн Google-Proof Q&A болон OpenAI-ийн 2024 оны MLE-бенч зэрэг AI-г бодит асуудлуудаар сорихоор төлөвлөж байна. Сайн шалгуур нь AI-г сургалтын үеэр тестийн асуулттай тулгарсан эсэхийг шалгаж, ямар нэгэн дөт замгүйгээр жинхэнэ сэтгэн бодох чадвартай байхыг шаарддаг байх ёстой. Xiang Yue нь тестүүдэд бодит дэлхийн нөхцөл байдал болон эрчим хүчний үр ашигтай ажиллагааг чухалчилдаг болохыг онцолж байна. Yue-ийн MMMU шалгуур нь их сургуулийн түвшний даалгаварт чатботуудыг үнэлдэг бөгөөд OpenAI-ийн o1 одоогийн рекорд дүн 78. 2% байна. Харин ARC-AGI нь математик болон хэлбэр танин мэдэх зэрэг суурь чадвар дээр төвлөрч, тестдээ оролцогчдод хариуг нь таамаглах дизайны өөрчлөлтүүдийг өгдөг. Yue нь AI чадамжийг үнэлэхэд ARC-AGI-ийн өвөрмөц хандлагыг үнэлдэг.


Watch video about

OpenAI-ийн o3 загвар ARC-AGI тестийн дээд амжилтыг эвдлээ.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 29, 2025, 1:34 p.m.

AI Видео Аналитик нь Маркетингын Стратегийг Өөрчи…

Өнөөгийн хурдтай өөрчлөгдөж буй дижитал маркетингийн орчинд хийсвэр оюун ухаан (AI) улам чухал болж байна, ялангуяа AI видео шинжилгээний салбарт.

Dec. 29, 2025, 1:21 p.m.

OpenAI ба NVIDIA хамтран хиймэл оюуны системийг б…

OpenAI болон NVIDIA нь хөгжүүлэлтийн болон дэд бүтэц, дэвшилтэт хиймэл оюун ухаан (AI) загваруудыг хурдтай хөгжүүлж, нэгтгэж ашиглахад чиглэсэн томоохон хамтын ажиллагаагаа зарлалаа.

Dec. 29, 2025, 1:17 p.m.

Хурдасгалыг саатуулах нь AI хурдны уралдаанд марк…

Зар сурталчилгааны салбар 2025 онд хурдан автоматжуулалтад шууд орох байсан бөгөөд энэ нь өргөн хүрээний хиймэл оюуны автоматжуулалтыг хурдацтай нэвтрүүлж эхэлсэн.

Dec. 29, 2025, 1:15 p.m.

Stagwell шинэ NewVoices.ai платформыг гаргаж ирлэ…

Хэдхэн жилийн өмнө Jeff Bezos нэгэн шинэ дэвшилтэт технологи Туршилтын амазоны ирээдүйг тодорхойлох болно гэж таамагласан бол, хамгийн том Wall Street шинжээчид ч гэнэтийн байжээ.

Dec. 29, 2025, 1:13 p.m.

AI-НАЙДМАЛ SEO: Хайлтнын эрэмбэ болон Хэрэглэгчий…

Хиймэл оюун ухаан (ХОУ) нь хайлтын системийн оновчилгоонд өөрчлөлт оруулж, бизнесүүдэд онлайнаар илэрхийлэх боломжийг өргөжүүлэн, хайлтын зэрэглэлийг сайжруулах шинэ боломжуудыг нээн гаргаж байна.

Dec. 29, 2025, 9:33 a.m.

Энэ оны турш эргэцүүлж байсан 5 AI сурталчилгааны…

2025 онд олон дэлхийн томоохон брэндүүдийн зах зээл хөгжүүлэгчид хиймэл оюун ухаан (AI)-ийг стратегийн чухал хэсэг болгон оруулсан ч энэ идэвхжилт заримдаа эрсдэлтэй үр дүнд хүргэсэн.

Dec. 29, 2025, 9:31 a.m.

AI RevOps таны бүх орлогын байгууллагыг шинэчлэн …

Борлуулалтын багууд олон шинэчлэгдэж, жижиг, том бүх байгууллагуудад хэдэн жилийн турш хүчээ сорьж байна.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today