lang icon En
Jan. 14, 2025, 7:39 p.m.
2161

OpenAI'nin o3 Modeli, ARC-AGI Testinde Rekorlar Kırdı.

Brief news summary

OpenAI'nin en son sohbet botu o3, yapay zekada önemli bir sıçramayı temsil ediyor ve ARC-AGI testinde %87,5 puan alarak önceki en iyi %55,5'lik skorun oldukça üstünde. Testi geliştiren François Chollet, o3'ün geliştirilmiş akıl yürütme ve genelleme yetenekleri nedeniyle bunu önemli bir ilerleme olarak değerlendiriyor. Bu ilerlemeye rağmen, o3 henüz genel yapay zeka (AGI) olarak nitelendirilmiyor; ancak FrontierMath gibi diğer değerlendirmelerde iyi performans gösteriyor. ARC-AGI testinin gerçek akıl yürütmeyi değerlendirme etkinliği tartışmalı. AI kıyaslama uzmanı David Rein, AI için tarafsız bilişsel testler oluşturmanın zorluklarına dikkat çekiyor. OpenAI, o3'ün mimarisinin ayrıntılarını açıklamamış olsa da, o3'ün optimal çözümler bulmak için birden fazla akıl yürütme zinciri kullandığı ve bu yöntemin her görev için 14 dakika gerektiren yoğun bir hesaplama süreci olduğu öneriliyor. AGI için arayış, belirlenmiş bir son tarih olmadan devam ediyor. OpenAI'nin 2024 MLE-bench'i ve Yue'nun MMMU'su gibi yaklaşan değerlendirmeler, doğruluk ve enerji verimliliğini önceliklendirerek gerçek dünya senaryosu değerlendirmelerine odaklanıyor. O3 dikkate değer bir ilerleme gösterse de AGI'ye ulaşma yolu belirsizliğini koruyor ve AI akıl yürütme yeteneklerini daha doğru ölçmek için daha gelişmiş kıyaslamaların gerekliliğini vurguluyor.

OpenAI'nin deneysel sohbet botu modeli o3, geçtiğimiz günlerde ARC-AGI testinde etkileyici bir şekilde %87. 5 puan alarak, önceki yapay zeka rekorunu %55. 5 ile önemli ölçüde geride bıraktı. Bu, İnsan Düzeyinde Yapay Zeka (AGI) yolunda önemli bir adımdır. AGI, insanlar gibi akıl yürütebilen, plan yapabilen ve öğrenebilen bir sistem olarak tanımlanır. ARC-AGI testini geliştiren yapay zeka araştırmacısı François Chollet, o3'ün önemli derecede akıl yürütme ve genelleme yeteneklerini kabul etmekle birlikte, AGI'nin henüz tam anlamıyla gerçekleştirilmediğini belirtiyor. o3 modeli, Epoch AI'nin zorlu FrontierMath testi gibi çeşitli kıstaslarda başarılı oldu. Ancak David Rein ve diğer uzmanlar, ARC-AGI'nin yapay zekanın akıl yürütme ve genelleme yeteneklerini doğru ölçüp ölçmediği konusunda şüpheci olup, daha iyi değerlendirme yöntemlerine ihtiyaç duyulduğunu belirtiyorlar. OpenAI, o3'ün operasyonu hakkında ayrıntılar vermemiş olsa da, bu modelin o1 modelinin 'düşünce zinciri' mantığını takip ettiğini belirtmekte. Kimileri, o3'ün en iyi cevabı bulmak için birden fazla akıl yürütme zinciri ürettiğini düşünüyor.

Yüksek performansına rağmen, o3'ün test süreci maliyetli ve zaman alıcı, her bir görev için yaklaşık 14 dakika gerektiriyor ve bu da sürdürülebilirlikle ilgili endişeleri artırıyor. AGI kavramının kesin bir tanımı yoktur ve bu nedenle yapay zekanın bunu ne zaman başarabileceği konusunda fikir birliği sağlanması zordur. Gelişmeleri izlemek için çeşitli testler geliştiriliyor, örneğin Rein’in Google-Proof Soru-Cevap ve OpenAI'nin 2024’te çıkacak MLE-bench'i, yapay zekayı gerçek dünya sorunları ile sınamaktadır. İyi ölçütler, yapay zekanın eğitim sırasında test soruları ile karşılaşmadığını ve kestirme yollar kullanmadan gerçek akıl yürütme gerektirdiğini garanti etmelidir. Xiang Yue, testlerin karmaşık, gerçek dünya şartlarının yanı sıra enerji verimliliğini de içine almasının önemini vurguluyor. Yue’nin MMMU ölçütü, sohbet botlarını üniversite düzeyindeki görevlerde değerlendiriyor ve OpenAI’nin o1 modeli, şu anki rekor puanı 78. 2% ile elinde tutuyor. ARC-AGI ise temel beceriler olan matematik ve desen tanıma üzerine odaklanarak, test-taker'lara sonuçları çıkarmak için tasarım dönüşümleri sunuyor. Yue, ARC-AGI’nin yapay zeka yeteneklerini değerlendirmede sunduğu benzersiz bakış açısını takdir ediyor.


Watch video about

OpenAI'nin o3 Modeli, ARC-AGI Testinde Rekorlar Kırdı.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 21, 2025, 1:44 p.m.

Yapay Zeka Video İçeriği Denetleme Araçları Çevri…

Sosyal medya platformları, çevrimiçi iletişimin baskın biçimi haline gelen videoların artışını dikkate alarak, içerik denetimlerini geliştirmek amacıyla giderek daha fazla yapay zeka (YZ) kullanıyor.

Dec. 21, 2025, 1:38 p.m.

ABD, yapay zeka yongaları üzerindeki ihracat kısı…

POLİTİKA TERSİNİ ALMA: Yıllarca sıkılaştırılan kısıtlamaların ardından Nvidia’nın H200 çiplerinin Çin’e satışına izin verme kararı, bazı Cumhuriyetçilerden tepki çekti.

Dec. 21, 2025, 1:38 p.m.

Yapay zeka, 2025 yılında 50.000'den fazla işten ç…

Yapay zeka kaynaklı işten çıkarmalar, 2025 iş piyasasında belirleyici oldu.

Dec. 21, 2025, 1:36 p.m.

Perplexity SEO Hizmetleri Tanıtıldı – NEWMEDIA.CO…

RankOS™ Marka Görünürlüğünü ve Atıf Almasını Perplexity AI ve Diğer Yanıt Motoru Arama Platformlarında Artırıyor Perplexity SEO Ajansı Hizmetleri New York, NY, 19 Aralık 2025 (GLOBE NEWSWIRE) — NEWMEDIA

Dec. 21, 2025, 1:22 p.m.

Eric Schmidt'in aile ofisi, 22 yapay zeka girişim…

Bu makalenin orijinal versiyonu, CNBC’nin Inside Wealth bülteninde yer alan, Robert Frank tarafından yazılmıştır ve yüksek net değerli yatırımcılar ve tüketiciler için haftalık bir kaynaktır.

Dec. 21, 2025, 1:21 p.m.

Pazarlamanın Geleceği Briefingi: "Yeterince iyi" …

Başlıklar, Disney’nin OpenAI’ye milyar dolarlık yatırımı üzerinde odaklanmış ve Disney’nin neden OpenAI’yi Google yerine tercih ettiğini, Google ile telif hakkı ihlali iddiasıyla dava sürecinde olduğunu speküle ediyor.

Dec. 21, 2025, 9:34 a.m.

Salesforce Verileri, Yapay Zeka ve Temsilcilerin …

Salesforce, 2025 Siber Güven Haftası alışveriş etkinliğine ilişkin detaylı bir rapor yayımladı ve verileri dünya genelinde 1,5 milyardan fazla alışverişçiden analiz etti.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today