OpenAI'nin o3 modeli, ARC-AGI kriterinde %75, 7 puan alarak ve gelişmiş bir versiyonuyla %87, 5'e ulaşarak AI alanında şaşırtıcı bir atılım yaptı. Ancak bu, yapay genel zekanın (AGI) geldiğini göstermez. Abstract Reasoning Corpus’a dayanan ARC-AGI kriteri, AI'nın karmaşık ve yeni görevlerde, görsel bulmacalarla yeteneğini test eder. Basit veri eğitimiyle brute-force çözümlerden kaçınması sebebiyle zordur. Kriter, 400 örnekten oluşan bir genel eğitim seti ve daha zorlu değerlendirme setleri içerir. AI'nın ön bilgiye maruz kalmadan tarafsız bir değerlendirme yapılmasını sağlamak için özel ve yarı-özel test setleri de bulunmaktadır. Daha önce, OpenAI'nin o1 modeli ARC-AGI'de sadece %32'ye ulaşmış ve araştırmacı Jeremy Berman’ın yöntemiyse %53'e ulaşmıştır. ARC'nin yaratıcısı François Chollet, o3'ün performansını, GPT modellerinde daha önce görülmemiş uyarlanabilirliği gösteren büyük bir ilerleme olarak tanımlamaktadır. O3 ile ilgili yoğun ilgiye rağmen, önceki modellerden önemli ölçüde büyük olmaması, bunun yalnızca kademeli bir ilerleme değil, gerçek bir niteliksel gelişme olduğunu gösterir.
Yine de, düşük hesaplama için bulmaca başına 17 ila 20 dolar ve 33 milyon token like maliyetlere, yüksek hesaplama ayarlarında önemli ölçüde artan maliyetlere sahiptir. Chollet, yeni problemleri çözmek için “program sentezi” üzerinde durmaktadır ve bu, küçük, birleştirilebilir programlar içermektedir. O3'ün mekanikleriyle ilgili kıt bilgiler varken, çözümler arasında düşünce zinciriyle arama mekanizmaları ve RL ile çözüm iyileştirme üzerine varsayımlar bulunmaktadır, ancak bu konuda uzmanlar arasında karışık görüşler mevcuttur. Adına rağmen, ARC-AGI AGI için bir test değildir. Chollet, o3'ün gelişmiş yetenekleri olsa da, basit görevleri yerine getirememesi ve dışsal girdi olmadan özerk öğrenme yapamamasından dolayı AGI olmadığını belirtir. Bağımsız doğrulama OpenAI'nin sonuçlarını sorgulamaktadır ve o3'ün ARC eğitim verileriyle ince ayarlandığını önermektedir. Araştırmacılar, bu sistemlerin soyutlama ve akıl yürütme becerilerini doğrulamak için ARC’nin ötesinde yeni ortamlarda test edilmesini önerir. Chollet'in ekibi, insanların çoğu bulmacayı kolaylıkla çözebileceği ve o3 için zorlayıcı olan yeni bir kıstas geliştirmektedir, bu da mevcut AI ile gerçek AGI arasındaki farkı vurgular.
OpenAI o3 Model'in ARC-AGI Benchmark'ta Çığır Açan Gelişmesi: İleri Düzey Yapay Zeka Yolunda Bir Adım
Her hafta, B2B ve Bulut şirketleri için gerçek sorunları çözen yapay zeka odaklı bir uygulamayı ön plana çıkarıyoruz.
Yapay zeka (YZ), yerel arama motoru optimizasyonu (SEO) stratejilerini giderek daha fazla etkiliyor.
IND Technology, altyapı izleme konusunda uzmanlaşmış Avustralyalı bir şirket, orman yangınları ve elektrik kesintilerini önlemeye yönelik yapay zeka odaklı çalışmalarını artırmak amacıyla 33 milyon dolar büyüme fonu sağladı.
Son birkaç hafta içinde, içerik üretim süreçlerinde yapay zeka (YZ) deneyen yayıncılar ve markalar artan bir tepkiyle karşılaştı.
Google Labs, Google DeepMind iş birliğiyle, küçük ve orta ölçekli işletmelerin markaya uygun pazarlama kampanyaları geliştirmesine yardımcı olmak amacıyla yapay zeka destekli bir deney olan Pomelli’yi tanıttı.
Günümüzde hızla büyüyen dijital ortamda, sosyal medya şirketleri çevrimiçi topluluklarını korumak adına gelişmiş teknolojileri giderek daha fazla benimsemektedir.
Bu hikayenin bir versiyonu CNN Business’ın Nightcap bülteninde yayımlandı.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today