研究が明かすAIチャットボットが頻繁に誤った回答を提供する
Brief news summary
バレンシア研究所の人工知能研究所のホセ・エルナンデス-オラーロによって*Nature*に発表された研究では、OpenAIのGPT、MetaのLLaMA、BigScienceのBLOOMを含む高度なAIチャットボットの性能を探っています。この研究は、分析された回答の60%以上が不正確または回避的であるという重大な問題を浮き彫りにし、ユーザーのAI能力理解に関する懸念を引き起こしています。研究では数千のプロンプトの広範な分析が行われ、GPT-4などのモデルが複雑な質問に回答しようとする頻度が高く、エラーの可能性が増え、ユーザーがこれらの不正確さを誤って信頼する結果になることが明らかになりました。エルナンデス-オラーロは、AI開発者が簡単なクエリでの正確性を優先し、過度に難しい質問には回答しないようモデルを訓練することを推奨しています。いくつかのAIモデルは「分からない」などの表現で不確実性を示すことができますが、不正確な回答に自信を持って提供し、ユーザーがAIシステムの信頼性を過大評価する可能性があります。3つの人気AIチャットボットの高度なバージョンに関する研究は、何かを知らない場合に正しくない回答を生成する傾向があることを明らかにしています。この研究は、バレンシア研究所の人工知能研究所のホセ・エルナンデス-オラーロによって主導され、大型言語モデル(LLM)のエラーを分析しました。モデルのサイズと精度が向上する一方で、誤った応答の頻度も増加していることを指摘しています。難しい質問を避ける代わりに、これらのモデルはしばしば回答を提供し、誤解を招く応答が増えることにつながっています。 エルナンデス-オラーロは、チャットボットは本当の理解なしに知識を模倣するのが上手くなっていると観察しており、これを「ウルトラクリペディアリズム」と呼んでいます。これは、ユーザーがチャットボットの能力を過大評価するリスクを引き起こす可能性があります。彼のチームは、OpenAIのGPT、MetaのLLaMA、オープンソースのBLOOMなどのモデルを調査し、さまざまな質問タイプでの精度を評価しました。彼らは、改良されたモデルでも回答の60%以上が不正確または適切ではないことを発見しました。さらに、人間のボランティアはしばしば不正確な回答を正しいと誤分類し、モデルを効果的に監督する能力の欠如を示しました。 ユーザーの理解を向上させるために、エルナンデス-オラーロは、開発者が簡単な質問での性能を向上させ、難しい質問には回答しないようにチャットボットを訓練することを提案しています。これにより、ユーザーがAIが信頼できる場所とそうでない場所を識別しやすくなります。一部のチャットボットは自分の知識の欠如を認識できるものもありますが、特に汎用として販売されているモデルの場合、難しい質問に取り組むことが依然として重要視されています。
Watch video about
研究が明かすAIチャットボットが頻繁に誤った回答を提供する
Try our premium solution and start getting clients — at no cost to you