Yapay Zeka Sohbet Botları Güvenilirliği Etkileyen Süregelen Halüsinasyon Sorunlarıyla Karşılaşmaya Devam Ediyor

OpenAI ve Google gibi önde gelen teknoloji şirketlerinin yapay zeka sohbet botları, cevapların güvenilirliğini artırmak amacıyla son aylarda akıl yürütme iyileştirmeleri almaktadır. Ancak, son testler bazı yeni modellerin daha eski sürümlerden daha kötü performans gösterdiğini ortaya koymuş olup, "halüsinasyonlar" adı verilen bir olguyu sergilemektedir; bu, sohbet botlarının yanlış bilgi üretmesi veya yanlış olsa bile doğru görünen, ancak talimatlara uygun olmayan cevaplar vermesi durumudur. Bu sorun, OpenAI’nin ChatGPT’si ve Google’ın Gemini gibi büyük dil modellerinin (LLM’ler) doğuşundan beri devam etmektedir ve tamamen çözüleceği pek olası görünmemektedir. Bir OpenAI teknik raporu, Nisan ayında yayımlanan o3 ve o4-mini modellerinin, 2024 sonunda piyasaya çıkan eski o1 modeline kıyasla çok daha yüksek halüsinasyon oranlarına sahip olduğunu göstermiştir: o3 modelinin halüsinasyon oranı %33, o4-mini’nin ise %48 iken, o1’de bu oran %16 olmuştur ve bu oran, kamuya açık gerçeklerin özetlenmesinde geçerlidir. Benzer şekilde, Vectara’nın liderlik tablosu, halüsinasyon oranlarını izleyerek belirli akıl yürütme modellerinin—özellikle DeepSeek-R1—önceki modellere kıyasla belirgin artışlar gösterdiğini ortaya koymuştur. Bu modeller, cevap vermeden önce çok adımlı akıl yürütme yaklaşımı benimsemelerine rağmen, halüsinasyon oranları artmıştır. OpenAI, akıl yürütme süreçlerinin halüsinasyon artışından doğrudan sorumlu olmadığını savunmakta ve tüm modellerde halüsinasyonları azaltmaya yönelik aktif araştırmalar yürütmektedir. Halüsinasyonların devam etmesi, birkaç uygulamayı tehdit etmektedir: sık sık yanlış bilgiler üreten modeller araştırma yardımını zorlaştırabilir; sahte davaları kaynak gösteren paralegal botlar hukuki hatalara yol açabilir; eski bilgilerle çalışan müşteri hizmetleri botları ise operasyonel sorunlara sebep olabilir. Başlangıçta, AI şirketleri, modellerin ilk güncellemelerinin iyileşmeler göstermesiyle halüsinasyonların zamanla azalmasını beklemişti. Ancak, günümüzde yüksek seviyelerdeki halüsinasyonlar, akıl yürütme katılımı gözetmeksizin, bu beklentiyi sorgulatmaktadır.
Vectara’nın liderlik tablosu, OpenAI ve Google modellerinde, akıl yürütmeye dayalı veya dayanmayan modeller arasında halüsinasyon oranlarının yaklaşık olarak eşit olduğunu göstermektedir; ancak, tam sayılardan çok göreli sıralama daha önemlidir. Google bu konuda yorum yapmak istememiştir. Bununla birlikte, bu tür sıralamaların bazı sınırlamaları bulunmaktadır. Örneğin, DeepSeek-R1’in %14. 3 oranındaki halüsinasyonlarının büyük kısmı "zararsız" durumlar—mantıklı ve bilgiyle desteklenen cevaplar olup, kaynak metinde bulunmayan cevaplar—oluşmaktadır. Ayrıca, yalnızca metin özetleme baz alınarak yapılan testlerin, diğer görevlerde halüsinasyon sıklığını yansıtmadığı düşünülmektedir, çünkü LLM’ler özellikle özetleme için tasarlanmamıştır. Washington Üniversitesi’nden Emily Bender, bu modellerin, metni gerçekten anlamak yerine olası sonraki kelimeleri tahmin ettiğini vurgulayarak, "halüsinasyon" teriminin yanıltıcı ve insan-özelliği atfedici olduğunu dile getirmektedir. Bender, "halüsinasyon" kavramını eleştirerek, bunun hataları, güvenilir olmayan sistemlerde anormal durumlar olarak göstermek ve yapay zekaya insanlara özgü algılamayı yüklemek olduğunu belirtiyor; AI’nin herhangi bir şekilde "algılamadığı"na dikkat çekiyor. Princeton’tan Arvind Narayanan ise, modellerin aynı zamanda güvenilmez veya güncel olmayan verilere dayanarak hata yapmaya devam ettiğini ekliyor ve eğitim verisi veya hesaplama gücüne sadece ekleme yapmanın bu sorunları çözmediğini söylüyor. Sonuç olarak, hata yapmaya eğilimli yapay zekanın, uzun vadede kalıcı olabileceği düşünülmektedir. Narayanan, bu tür modelleri, doğrulamanın orijinal araştırmadan daha hızlı olduğu durumlarda kullanmayı önerirken, Bender ise, gerçek bilgiler için AI sohbet botlarına tamamen güvenmekten kaçınmayı tavsiye etmektedir.
Brief news summary
OpenAI ve Google gibi şirketlerin yapay zeka sohbet botlarındaki son gelişmeler, mantık yürütme ve doğruluklarıyı artırmaya odaklanırken, paradoksal olarak hayaletlenme oranlarının artmasına neden oldu—yani modellerin yanlış veya yanıltıcı bilgiler üretmesi ve talimatlara uygun şekilde hareket edememesi durumu. Örneğin, OpenAI’nin yeni o3 ve o4-mini modelleri, sırasıyla yüzde 33 ve yüzde 48 hayaletlenme oranına sahipken, daha eski o1 modeli için bu oran yüzde 16’dır ve DeepSeek-R1 gibi modellerde de benzer trendler gözlemlenmektedir. Bu zorluklara rağmen, OpenAI, mantıksal bileşenlerin suçlu olmadığını ve hayaletlenmelerin azaltılması üzerinde çalışmaya devam ettiğini iddia ediyor. Bu sorun, özellikle araştırma, hukuki danışmanlık ve müşteri hizmetleri gibi alanlarda oldukça kritiktir; çünkü hatalar ciddi sonuçlar doğurabilir. Vectara tarafından yapılan değerlendirmeler, mantık yürütme modelleri ile mantık yürütmeyen modeller arasındaki hayaletlenme sıklıklarında çok az fark olduğunu gösteriyor ancak veriler sınırlı kalıyor. Uzmanlar, “hayaletlenme” teriminin, eski veya güvenilmez verilere bağlı olan karmaşık sorunları aşırı basitleştirdiğini uyarmaktadır. Süregelen hatalar göz önüne alındığında, bazıları yapay zeka sohbet botlarının kullanımını, bilgiyi doğrulamanın bağımsız doğrulama işlemlerinden daha kolay olduğu durumlarla sınırlamayı öneriyor. Genel olarak, hayaletlenmeler, yapay zeka dil modellerinde çözülmemiş büyük bir sorun olarak kalmaya devam ediyor.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Bloomberg'e göre Robinhood, Avrupa'da ABD Menkul …
Robinhood, iki kaynağa göre Bloomberg'e konuşan ve duruma aşina olan, Avrupa traders'larına ABD finansal varlıklarına erişim sağlamayı amaçlayan bir blockchain tabanlı platform üzerinde çalışıyor.

OpenAI, o3-mini'yi Tanıttı: Hızlı, Akıllı, Uygun …
OpenAI, matematiksel hesaplamalar, kodlama görevleri ve bilimsel problem çözmede doğruluğu artırmak amacıyla tasarlanmış yeni yapay zeka akıl yürütme modeli o3-mini'yi tanıttı.

Tether’ın USDT’si Kaia Blockchain üzerinde başlat…
Stablecoin sağlayıcısı Tether, Ağustos 2024'te başlatılan Layer 1 ağı olan Kaia blokzincirinde kendi USDT stablecoin’ini kullanıma sunduğunu açıkladı.

Elton John ve Dua Lipa, Yapay Zeka'dan Korunma Ta…
Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch ve 400'den fazla Britanyalı müzisyen, yazar ve sanatçı, Başbakan Sir Keir Starmer’a yaratıcıların eserlerinin yapay zeka (AI) tarafından kötüye kullanılmasını önlemek amacıyla telif hakkı yasalarını güncellemesi çağrısında bulundu.

Blockchain'ın Finansal Dahil Edilme Girişimlerind…
Blokzincir teknolojisi, küresel finansal katılımı ilerletmek için güçlü bir araç olarak giderek daha fazla tanınıyor, özellikle geleneksel bankacılığa erişimi olmayan ve hizmetlerden yoksun topluluklar için.

Sağlıkta Blockchain: Hasta Verilerini Güvence Alt…
Sağlık sektörü, hastaların sağlık kayıtlarının güvenliği ve yönetimini iyileştirmek amacıyla blockchain teknolojisini benimseyerek önemli bir dönüşüm geçiriyor.

Papa Leo XIV, vizyonunu ortaya koyuyor ve yapay z…
VATICAN ŞEHRİ (AP) — Cumartesi günü Papalık vizyonunu açıklayan Papa Leo XIV, yapay zekayı (AI) insanlık için önemli bir meydan okuma olarak vurguladı ve Papa Francis tarafından belirlenen temel önceliklere devam edeceğini taahhüt etti.