lang icon En
Dec. 24, 2024, 5:49 p.m.
5166

OpenAI o3 Model'in ARC-AGI Benchmark'ta Çığır Açan Gelişmesi: İleri Düzey Yapay Zeka Yolunda Bir Adım

Brief news summary

OpenAI'nin o3 modeli, yapay zekada önemli bir adım ileri giderek ARC-AGI kriterinde %75,7 puan alırken, yüksek hesaplama gücüne sahip varyantı etkileyici bir şekilde %87,5’e ulaştı. ARC-AGI, bir yapay zekanın yenilikçi ve karmaşık görsel görevleri ele alabilme yeteneğini değerlendirir ve uyarlanabilir zekayı vurgular. Bu ilerlemeye rağmen, o3 hala yapay genel zeka (AGI) olarak nitelendirilemez, çünkü basit görevlerde zorlanır ve akıl yürütme için insan rehberliğine ihtiyaç duyar. Önceki en yüksek ARC-AGI puanı %53'tü ve bu karışık modeller ve genetik algoritmalar kullanılarak elde edilmişti. ARC'nin mimarı François Chollet, o3'ü uyarlanabilir AI'da önemli bir sıçrama olarak değerlendiriyor ve bu, basit ilerlemelerin ötesinde bir gelişme olarak kabul ediliyor. O3 modelinin önemli ölçüde hesaplama gücü talep etmesine rağmen, bu taleplerin zamanla azalması bekleniyor. Modelin başarısı "program sentezi" ile ilgili olabilir; bu, görevleri çözmek için küçük programlar hazırlamayı içerir. Modelin içerisine pekiştirmeli öğrenme ve arama stratejileri dahil etmeye dair tartışmalar sürmekte, ancak mimari detaylar henüz açıklanmış değil. O3’ün ARC-AGI’deki başarıları önemli olsa da AGI ile eşdeğer değildir. Chollet dahil uzmanlar, ARC-AGI’de başarılı olmanın AGI elde etmekle aynı anlama gelmediğini vurgulamaktadır. Yapay zeka modellerini, özellikle ilk eğitim senaryolarının ötesindeki uyarlanabilirliklerini daha iyi değerlendirmek amacıyla yeni zorluklar geliştirilmektedir. Bu çabalar, AGI’ye doğru ilerlemeyi göstermekte, ancak nihai hedef henüz ulaşılmış değildir.

OpenAI'nin o3 modeli, ARC-AGI kriterinde %75, 7 puan alarak ve gelişmiş bir versiyonuyla %87, 5'e ulaşarak AI alanında şaşırtıcı bir atılım yaptı. Ancak bu, yapay genel zekanın (AGI) geldiğini göstermez. Abstract Reasoning Corpus’a dayanan ARC-AGI kriteri, AI'nın karmaşık ve yeni görevlerde, görsel bulmacalarla yeteneğini test eder. Basit veri eğitimiyle brute-force çözümlerden kaçınması sebebiyle zordur. Kriter, 400 örnekten oluşan bir genel eğitim seti ve daha zorlu değerlendirme setleri içerir. AI'nın ön bilgiye maruz kalmadan tarafsız bir değerlendirme yapılmasını sağlamak için özel ve yarı-özel test setleri de bulunmaktadır. Daha önce, OpenAI'nin o1 modeli ARC-AGI'de sadece %32'ye ulaşmış ve araştırmacı Jeremy Berman’ın yöntemiyse %53'e ulaşmıştır. ARC'nin yaratıcısı François Chollet, o3'ün performansını, GPT modellerinde daha önce görülmemiş uyarlanabilirliği gösteren büyük bir ilerleme olarak tanımlamaktadır. O3 ile ilgili yoğun ilgiye rağmen, önceki modellerden önemli ölçüde büyük olmaması, bunun yalnızca kademeli bir ilerleme değil, gerçek bir niteliksel gelişme olduğunu gösterir.

Yine de, düşük hesaplama için bulmaca başına 17 ila 20 dolar ve 33 milyon token like maliyetlere, yüksek hesaplama ayarlarında önemli ölçüde artan maliyetlere sahiptir. Chollet, yeni problemleri çözmek için “program sentezi” üzerinde durmaktadır ve bu, küçük, birleştirilebilir programlar içermektedir. O3'ün mekanikleriyle ilgili kıt bilgiler varken, çözümler arasında düşünce zinciriyle arama mekanizmaları ve RL ile çözüm iyileştirme üzerine varsayımlar bulunmaktadır, ancak bu konuda uzmanlar arasında karışık görüşler mevcuttur. Adına rağmen, ARC-AGI AGI için bir test değildir. Chollet, o3'ün gelişmiş yetenekleri olsa da, basit görevleri yerine getirememesi ve dışsal girdi olmadan özerk öğrenme yapamamasından dolayı AGI olmadığını belirtir. Bağımsız doğrulama OpenAI'nin sonuçlarını sorgulamaktadır ve o3'ün ARC eğitim verileriyle ince ayarlandığını önermektedir. Araştırmacılar, bu sistemlerin soyutlama ve akıl yürütme becerilerini doğrulamak için ARC’nin ötesinde yeni ortamlarda test edilmesini önerir. Chollet'in ekibi, insanların çoğu bulmacayı kolaylıkla çözebileceği ve o3 için zorlayıcı olan yeni bir kıstas geliştirmektedir, bu da mevcut AI ile gerçek AGI arasındaki farkı vurgular.


Watch video about

OpenAI o3 Model'in ARC-AGI Benchmark'ta Çığır Açan Gelişmesi: İleri Düzey Yapay Zeka Yolunda Bir Adım

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 16, 2025, 1:29 p.m.

SaaStr Hafta'nın AI Uygulaması: Kintsugi — Satış …

Her hafta, B2B ve Bulut şirketleri için gerçek sorunları çözen yapay zeka odaklı bir uygulamayı ön plana çıkarıyoruz.

Dec. 16, 2025, 1:24 p.m.

Yapay Zekanın Yerel SEO Stratejilerindeki Rolü

Yapay zeka (YZ), yerel arama motoru optimizasyonu (SEO) stratejilerini giderek daha fazla etkiliyor.

Dec. 16, 2025, 1:22 p.m.

IND Teknoloji, AI ile Şebeke Krizlerini Önlemek İ…

IND Technology, altyapı izleme konusunda uzmanlaşmış Avustralyalı bir şirket, orman yangınları ve elektrik kesintilerini önlemeye yönelik yapay zeka odaklı çalışmalarını artırmak amacıyla 33 milyon dolar büyüme fonu sağladı.

Dec. 16, 2025, 1:21 p.m.

Yapay Zeka uygulamaları yayıncılar ve markalar iç…

Son birkaç hafta içinde, içerik üretim süreçlerinde yapay zeka (YZ) deneyen yayıncılar ve markalar artan bir tepkiyle karşılaştı.

Dec. 16, 2025, 1:17 p.m.

Google Labs ve DeepMind, KOBİ’ler İçin Yapay Zeka…

Google Labs, Google DeepMind iş birliğiyle, küçük ve orta ölçekli işletmelerin markaya uygun pazarlama kampanyaları geliştirmesine yardımcı olmak amacıyla yapay zeka destekli bir deney olan Pomelli’yi tanıttı.

Dec. 16, 2025, 1:15 p.m.

Yapay Zeka Destekli Video Tanıma, Sosyal Medya Pl…

Günümüzde hızla büyüyen dijital ortamda, sosyal medya şirketleri çevrimiçi topluluklarını korumak adına gelişmiş teknolojileri giderek daha fazla benimsemektedir.

Dec. 16, 2025, 9:37 a.m.

Neden 2026, anti-Yapay Zeka pazarlamasının yılı o…

Bu hikayenin bir versiyonu CNN Business’ın Nightcap bülteninde yayımlandı.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today