News
>
AI 챗봇, 지속적인 환각 문제로 신뢰도에 영향

Auto-Filling SEO Website as a Gift

Launch Your AI-Powered Business and get clients!

No advertising investment needed—just results. AI finds, negotiates, and closes deals automatically

May 10, 2025, 5:50 p.m.

121

AI 챗봇, 지속적인 환각 문제로 신뢰도에 영향

OpenAI와 Google과 같은 선도적인 기술 기업의 AI 챗봇들이 최근 몇 달간 답변 신뢰성을 높이기 위해 추론 능력을 향상시키는 업데이트를 받고 있습니다. 그러나 최근 테스트 결과 일부 최신 모델들이 이전 버전보다 성능이 떨어지는 것으로 나타났으며, 이들은 "환각(할루시네이션)"이라고 불리는 현상—잘못된 정보를 생성하거나 사실적으로는 맞지만 관련 없거나 지침에 불합치하는 답변을 하는 오류—를 보여주고 있습니다. 이 문제는 OpenAI의 ChatGPT, Google의 Gemini와 같은 대형 언어 모델(LLM)이 처음 등장한 이후로 지속되어 왔으며, 완전히 해결되기 어렵다고 보입니다. OpenAI의 기술 보고서에 따르면, 2024년 4월에 출시된 o3와 o4-mini 모델이 2024년 후반 기존 o1 모델에 비해 훨씬 높은 환각률을 보였다고 합니다. 구체적으로, 공개적으로 제공된 사실들을 요약할 때 o3는 33%, o4-mini는 48%의 환각률을 기록했으며, o1은 16%에 불과했습니다. 유사하게, Vectara의 환각률 추적 리더보드에서도 일부 추론 모델들—DeepSeek-R1 포함—이전에 비해 환각률이 크게 증가했음을 보여주었는데, 이는 답변 전에 여러 단계의 추론 과정을 거침에도 불구하고 나타난 결과입니다. OpenAI는 추론 과정이 환각 증가의 본질적 원인이라고 간주하지 않으며, 모든 모델에서 환각을 줄이기 위한 연구를 적극 진행 중이라고 밝혔습니다. 그러나 환각의 지속은 여러 응용 분야에 위협이 되고 있습니다. 잦은 허위 정보를 만들어내는 모델은 연구 지원을 방해하며, 존재하지 않는 사례를 인용하는 법률 보조 봇은 법적 오류를 야기할 수 있고, 오래된 정보를 사용하는 고객 서비스 봇은 운영에 문제를 일으킬 수 있습니다. 초기에는 AI 기업들이 초기 모델 업데이트에서 개선이 이뤄지면서 시간이 지남에 따라 환각 현상이 감소할 것으로 기대했으나, 최근의 높은 환각률은 이 전망에 도전하는 모습입니다.

Vectara의 리더보드에 따르면, OpenAI와 Google의 추론 모델과 비추론 모델 간 환각률은 대략 비슷한 수준이지만, 정확한 수치보다 순위가 더 중요하다고 볼 수 있습니다. 구글은 이에 대해 논평을 거부했습니다. 다만, 이러한 순위에는 한계가 있습니다. 예를 들어, DeepSeek-R1의 14. 3% 환각률은 대부분 "무해한" 사례로, 논리적으로 타당하고 지식에 근거하지만 출처 텍스트에는 없는 답변들로 구성되어 있습니다. 또한, 텍스트 요약에만 집중한 테스트는 LLM이 요약 전용이 아니기 때문에 다른 작업에서의 환각 빈도를 정확히 반영하지 못할 수 있습니다. 워싱턴 대학의 Emily Bender는 이러한 모델이 정보를 진짜 이해하기보다는 가능성 높은 다음 단어를 예측하는 것에 가깝다고 지적하며, "환각"이라는 용어는 오해를 불러일으키고 인간과 비슷한 인식 능력을 부여하는 것이라고 비판합니다. Bender는 "환각"이라는 표현이 문제가 된다고 지적하는데, 왜냐하면 이는 오류를 일종의 이상 현상처럼 보고, AI에게 인간과 유사한 인식을 기대하게 만들기 때문입니다. 프린스턴 대학교의 Arvind Narayanan은 또, 모델들이 신뢰할 수 없거나 구식인 데이터를 기반으로 오류를 범하는데, 단순히 데이터나 계산 능력을 늘린다고 해결되지 않는다고 덧붙입니다. 이로 인해, 오류가 많은 AI는 영구적인 현실이 될 가능성이 높으며, Narayanan은 사실 확인이 자체 연구보다 빠른 경우에만 이러한 모델들을 활용할 것을 제안합니다. 한편 Bender는 사실적 정보를 위해 AI 챗봇에 의존하는 것 자체를 피하는 것이 좋다고 조언합니다.

News source

Brief news summary

OpenAI와 Google과 같은 회사들의 AI 챗봇 개발에서 최근의 발전은 추론과 정확성을 향상시키는 데 초점을 맞추었지만, 역설적으로 환각(잘못되거나 오해의 소지가 있는 정보를 생성하는 현상) 발생률이 증가하는 결과를 낳고 있습니다. 예를 들어, OpenAI의 최신 o3와 o4-mini 모델은 각각 33%와 48%의 환각률을 보이고 있으며, 이전 모델인 o1은 16%에 불과했습니다. 이러한 추세는 DeepSeek-R1과 같은 다른 모델에서도 비슷하게 나타나고 있습니다. 이러한 문제에도 불구하고, OpenAI는 추론 능력의 문제라고 보지 않으며 환각을 줄이기 위해 계속 노력하고 있다고 밝혔습니다. 이 문제는 특히 연구, 법률 자문, 고객 서비스와 같은 분야에서 매우 심각하게 다뤄지고 있는데, 이 분야에서는 오류가 치명적인 결과를 초래할 수 있기 때문입니다. Vectara의 평가에 따르면, 추론 모델과 비추론 모델 간에 환각 발생률의 차이는 크지 않으며, 데이터의 제한성도 존재합니다. 전문가들은 ‘환각’이라는 용어가 오래되거나 신뢰할 수 없는 데이터를 기반으로 하는 복잡한 문제들을 지나치게 단순화하는 경향이 있다고 경고하고 있습니다. 지속적인 정확성 문제를 감안할 때, 일부는 AI 챗봇의 활용 범위를 정보 검증이 간단한 경우로 제한하는 방안을 제안하기도 합니다. 전반적으로, 환각 문제는 AI 언어 모델에서 아직 해결되지 않은 중요한 과제입니다.

Business on autopilot