تواجه روبوتات الدردشة الذكية مشكلة الهلوسة المستمرة التي تؤثر على موثوقيتها

لقد شهدت روبوتات الدردشة المدعومة بالذكاء الاصطناعي من الشركات التقنية الرائدة مثل أوبن إيه آي وجوجل تحسينات في قدراتها على الاستنتاج خلال الأشهر الأخيرة بهدف تعزيز موثوقية الإجابات. ومع ذلك، كشفت الاختبارات الأخيرة أن بعض النماذج الأحدث أداؤها أسوأ من الإصدارات السابقة، مع ظهور ظاهرة تُعرف بـ "الهلاوس"—وهي أخطاء حيث ينتج الروبوت معلومات كاذبة أو يقدم إجابات صحيحة من حيث الحقيقة لكنها غير ذات صلة أو غير متوافقة مع التعليمات. وهذه المشكلة مستمرة منذ نشأة نماذج اللغة الكبيرة (LLMs) مثل ChatGPT من أوبن إيه آي و Gemini من جوجل، ويبدو من غير المحتمل أن تُحَل تمامًا. أظهر تقرير فني من أوبن إيه آي أن نماذجها o3 و o4-mini التي أُطلقت في أبريل كانت تُظهر معدلات هلاوس أعلى بكثير من النموذج الأقدم o1 من نهاية عام 2024؛ حيث كانت نسبة الهلاوس في o3 33%، وفي o4-mini 48%، مقارنة بـ 16% فقط في o1 عند تلخيص حقائق متاحة للجميع. وبالمثل، أظهر تتبع تصنيفات الترتيب في Vectara أن بعض نماذج الاستنتاج، بما في ذلك DeepSeek-R1، شهدت زيادات ملحوظة في الهلاوس مقارنةً بسابقتها، على الرغم من اعتمادها على منهجية الاستنتاج متعدد الخطوات قبل الإجابة. تؤكد شركة أوبن إيه آي أن عمليات الاستنتاج ليست سببًا جوهريًا لزيادة الهلاوس، وهي تواصل البحث بنشاط عن طرق لتقليل هذه الظاهرة في جميع النماذج. إن استمرار وجود الهلاوس يهدد عدة تطبيقات: فالنماذج التي تنتج أكاذيب بشكل متكرر تعوق البحث العلمي؛ والبوتات القانونية التي تستشهد بدعاوى غير موجودة تعرض الأخطاء القانونية؛ وخدمة العملاء التي تعتمد على معلومات قديمة تسبب مشاكل تشغيلية. في البداية، كانت شركات الذكاء الاصطناعي تتوقع أن تتقلص الهلاوس مع مرور الزمن، إذ أظهرت تحديثات النماذج المبكرة تحسنًا. ومع ذلك، فإن المستويات المرتفعة مؤخرًا من الهلاوس تتحدى تلك التوقعات، بغض النظر عن دور الاستنتاج. تُظهر تصنيفات Vectara أن معدلات الهلاوس تكاد تكون متساوية بين النماذج التي تعتمد على الاستنتاج وأخرى لا، سواء من أوبن إيه آي أو جوجل، على أن الأرقام الدقيقة أقل أهمية من الترتيب النسبي.
ورفضت جوجل التعليق على الأمر. لكن، توجد قيود على مثل هذه التصنيفات. فهي تمزج بين أنواع مختلفة من الهلاوس؛ على سبيل المثال، فإن معدل هلاوس DeepSeek-R1 البالغ 14. 3% يتكون في الغالب من حالات "حميدة" — إجابات منطقية ومدعومة بالمعرفة لكنها غير موجودة في النص المصدر. علاوة على ذلك، فإن الاختبار الذي يعتمد فقط على تلخيص النص لا يعكس بالضرورة تكرار الهلاوس في مهام أخرى، إذ إن نماذج اللغة الكبيرة ليست مصممة خصيصًا للتلخيص. تؤكد إيمل بيدر من جامعة واشنطن أن هذه النماذج تتوقع الكلمات التالية المحتملة أكثر من معالجتها للمعلومات لفهم النص بشكل حقيقي، مما يجعل مصطلح "الهلاوس" مضللًا وله طابع أنثروبومورفي. تنتقد بيدر مصطلح "الهلاوس" بأنه سلبي لأنه يوحي أن الأخطاء استثنائية في أنظمة موثوقة، ويُعطي الذكاء الاصطناعي تصورًا بشريًا، وهو أمر غير صحيح لأنه لا "يدرك" بأي معنى من المعاني. يضيف أروند ناراناهان من جامعة برينستون أن النماذج تخطئ أيضًا لأنها تعتمد على بيانات غير موثوقة أو قديمة، وأن مجرد إضافة بيانات تدريب أو زيادة القدرات الحاسوبية لم تحل هذه المشاكل. وبالتالي، قد يكون الذكاء الاصطناعي المعتمد على الأخطاء واقعًا مستدامًا. يقترح ناراناهان أن نستخدم مثل هذه النماذج فقط عندما يكون التحقق من الحقائق أسرع من القيام بالبحث الأصلي، في حين توصي بيدر بعدم الاعتماد على روبوتات الدردشة المعتمدة على الذكاء الاصطناعي كمصدر رئيسي للمعلومات factual.
Brief news summary
شهدت التكنولوجيا الحديثة في روبوتات الدردشة التي تطورها شركات مثل أوبن إيه آي وجوجل، والتي تركز على تحسين قدرات الاستنتاج والدقة، نتائج متناقضة حيث زادت معدلات الوهم — وهي الحالات التي تنتج فيها النماذج معلومات خاطئة أو مضللة وتفشل في الالتزام بالتعليمات بشكل صحيح. على سبيل المثال، تظهر نماذج أوبن إيه آي الأحدث مثل o3 وo4-mini معدلات وهم تصل إلى 33% و48% على التوالي، مقارنة بنسبة 16% لنموذج o1 الأقدم، مع ملاحظات مماثلة في نماذج أخرى مثل DeepSeek-R1. على الرغم من هذه التحديات، تؤكد أوبن إيه آي أن مكونات الاستنتاج ليست السبب وتواصل العمل على تقليل حالة الوهم. تعتبر هذه المشكلة حاسمة بشكل خاص في مجالات مثل البحث، والنصائح القانونية، وخدمة العملاء، حيث يمكن أن تكون الأخطاء كارثية. تظهر تقييمات شركة Vectara تفاوتات قليلة في تكرارات الوهم بين النماذج التي تعتمد الاستنتاج وتلك التي لا تعتمد، على الرغم من أن البيانات لا تزال محدودة. ويحذر الخبراء من أن مصطلح "الهلاوس" يبسط بشكل كبير مشاكل معقدة تعتمد على بيانات قديمة أو غير موثوقة. ومع استمرار وجود أخطاء في المعلومات، يقترح بعضهم حصر استخدام روبوتات الدردشة الذكية في سيناريوهات تكون فيها عملية التحقق من صحة المعلومات أسهل من التحقق المستقل من الحقائق. بشكل عام، لا تزال المشكلة الكبرى للهلوسة غير محلولة بشكل كامل في نماذج اللغة الاصطناعية.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

جروك هو الحليف الوحيد لإيلون ماسك في سباق افتراضي…
إذا اضطررت للاختيار بين إيلون ماسك وسام ألتمان لقيادة سباق الذكاء الاصطناعي مع خطر مستقبل البشرية، فضل غالبية روبوتات الدردشة الذكية ألتمان، باستثناء جروك المملوك لمؤسسة ماسك الذي وقف بجانب ماسك.

روبن هود تطور برنامجاً قائماً على تقنية البلوك تشين…
تعمل روبن هود على منصة قائمة على تقنية البلوك تشين تهدف إلى تمكين المتداولين الأوروبيين من الوصول إلى الأصول المالية الأمريكية، وفقًا لمصادر مطلعة على الوضع تحدثت إلى بلومبرج.

أوبن إيه آي تطلق o3-mini: نموذج ذكاء اصطناعي سريع…
كشفت شركة أوبن إيه آي عن نموذجها الجديد o3-mini، وهو نموذج جديد للذكاء الاصطناعي يعتمد على الاستنتاج، تم تصميمه خصيصًا لتعزيز الدقة في العمليات الحسابية، والمهام البرمجية، وحل المشكلات العلمية.

إطلاق عملة USDT من تيدر على بلوكتشين كايا، وتوسيع…
أعلن مصدر إصدار العملات المستقرة Tether عن إطلاق عملة USDT المستقرة الأساسية على بلوكشين كايا، وهو شبكة طبقة أولى أطلقت في أغسطس 2024.

إيلتون جون ودوا ليبا يبحثان عن حماية من الذكاء ال…
دوا ليبا، السير إيلتون جون، السير إيان مكيلين، فلورنس ويلش، وأكثر من 400 موسيقي وكاتب وفنان بريطانيين آخرين، حثوا رئيس الوزراء السير كير ستارمر على تحديث قوانين حقوق النشر لحماية المبدعين من إساءة استخدام أعمالهم من قبل الذكاء الاصطناعي.

دور تقنية البلوكشين في مبادرات الشمول المالي
تُعتبر تقنية البلوكشين معترفًا بها بشكل متزايد كأداة قوية لتعزيز الشمول المالي عالميًا، خاصة للفئات غير المصرفية والمجتمعات التي تعاني من نقص في الخدمات المصرفية التقليدية.

البلوك تشين في الرعاية الصحية: تأمين بيانات المرضى
يخضع قطاع الرعاية الصحية لتحول كبير من خلال اعتماد تقنية البلوكتشين لتحسين أمن وإدارة سجلات المرضى الصحية.