lang icon Korean
Auto-Filling SEO Website as a Gift

Launch Your AI-Powered Business and get clients!

No advertising investment needed—just results. AI finds, negotiates, and closes deals automatically

May 10, 2025, 5:50 p.m.
4

AI 챗봇, 지속적인 환각 문제로 신뢰도에 영향

OpenAI와 Google과 같은 선도적인 기술 기업의 AI 챗봇들이 최근 몇 달간 답변 신뢰성을 높이기 위해 추론 능력을 향상시키는 업데이트를 받고 있습니다. 그러나 최근 테스트 결과 일부 최신 모델들이 이전 버전보다 성능이 떨어지는 것으로 나타났으며, 이들은 "환각(할루시네이션)"이라고 불리는 현상—잘못된 정보를 생성하거나 사실적으로는 맞지만 관련 없거나 지침에 불합치하는 답변을 하는 오류—를 보여주고 있습니다. 이 문제는 OpenAI의 ChatGPT, Google의 Gemini와 같은 대형 언어 모델(LLM)이 처음 등장한 이후로 지속되어 왔으며, 완전히 해결되기 어렵다고 보입니다. OpenAI의 기술 보고서에 따르면, 2024년 4월에 출시된 o3와 o4-mini 모델이 2024년 후반 기존 o1 모델에 비해 훨씬 높은 환각률을 보였다고 합니다. 구체적으로, 공개적으로 제공된 사실들을 요약할 때 o3는 33%, o4-mini는 48%의 환각률을 기록했으며, o1은 16%에 불과했습니다. 유사하게, Vectara의 환각률 추적 리더보드에서도 일부 추론 모델들—DeepSeek-R1 포함—이전에 비해 환각률이 크게 증가했음을 보여주었는데, 이는 답변 전에 여러 단계의 추론 과정을 거침에도 불구하고 나타난 결과입니다. OpenAI는 추론 과정이 환각 증가의 본질적 원인이라고 간주하지 않으며, 모든 모델에서 환각을 줄이기 위한 연구를 적극 진행 중이라고 밝혔습니다. 그러나 환각의 지속은 여러 응용 분야에 위협이 되고 있습니다. 잦은 허위 정보를 만들어내는 모델은 연구 지원을 방해하며, 존재하지 않는 사례를 인용하는 법률 보조 봇은 법적 오류를 야기할 수 있고, 오래된 정보를 사용하는 고객 서비스 봇은 운영에 문제를 일으킬 수 있습니다. 초기에는 AI 기업들이 초기 모델 업데이트에서 개선이 이뤄지면서 시간이 지남에 따라 환각 현상이 감소할 것으로 기대했으나, 최근의 높은 환각률은 이 전망에 도전하는 모습입니다.

Vectara의 리더보드에 따르면, OpenAI와 Google의 추론 모델과 비추론 모델 간 환각률은 대략 비슷한 수준이지만, 정확한 수치보다 순위가 더 중요하다고 볼 수 있습니다. 구글은 이에 대해 논평을 거부했습니다. 다만, 이러한 순위에는 한계가 있습니다. 예를 들어, DeepSeek-R1의 14. 3% 환각률은 대부분 "무해한" 사례로, 논리적으로 타당하고 지식에 근거하지만 출처 텍스트에는 없는 답변들로 구성되어 있습니다. 또한, 텍스트 요약에만 집중한 테스트는 LLM이 요약 전용이 아니기 때문에 다른 작업에서의 환각 빈도를 정확히 반영하지 못할 수 있습니다. 워싱턴 대학의 Emily Bender는 이러한 모델이 정보를 진짜 이해하기보다는 가능성 높은 다음 단어를 예측하는 것에 가깝다고 지적하며, "환각"이라는 용어는 오해를 불러일으키고 인간과 비슷한 인식 능력을 부여하는 것이라고 비판합니다. Bender는 "환각"이라는 표현이 문제가 된다고 지적하는데, 왜냐하면 이는 오류를 일종의 이상 현상처럼 보고, AI에게 인간과 유사한 인식을 기대하게 만들기 때문입니다. 프린스턴 대학교의 Arvind Narayanan은 또, 모델들이 신뢰할 수 없거나 구식인 데이터를 기반으로 오류를 범하는데, 단순히 데이터나 계산 능력을 늘린다고 해결되지 않는다고 덧붙입니다. 이로 인해, 오류가 많은 AI는 영구적인 현실이 될 가능성이 높으며, Narayanan은 사실 확인이 자체 연구보다 빠른 경우에만 이러한 모델들을 활용할 것을 제안합니다. 한편 Bender는 사실적 정보를 위해 AI 챗봇에 의존하는 것 자체를 피하는 것이 좋다고 조언합니다.



Brief news summary

OpenAI와 Google과 같은 회사들의 AI 챗봇 개발에서 최근의 발전은 추론과 정확성을 향상시키는 데 초점을 맞추었지만, 역설적으로 환각(잘못되거나 오해의 소지가 있는 정보를 생성하는 현상) 발생률이 증가하는 결과를 낳고 있습니다. 예를 들어, OpenAI의 최신 o3와 o4-mini 모델은 각각 33%와 48%의 환각률을 보이고 있으며, 이전 모델인 o1은 16%에 불과했습니다. 이러한 추세는 DeepSeek-R1과 같은 다른 모델에서도 비슷하게 나타나고 있습니다. 이러한 문제에도 불구하고, OpenAI는 추론 능력의 문제라고 보지 않으며 환각을 줄이기 위해 계속 노력하고 있다고 밝혔습니다. 이 문제는 특히 연구, 법률 자문, 고객 서비스와 같은 분야에서 매우 심각하게 다뤄지고 있는데, 이 분야에서는 오류가 치명적인 결과를 초래할 수 있기 때문입니다. Vectara의 평가에 따르면, 추론 모델과 비추론 모델 간에 환각 발생률의 차이는 크지 않으며, 데이터의 제한성도 존재합니다. 전문가들은 ‘환각’이라는 용어가 오래되거나 신뢰할 수 없는 데이터를 기반으로 하는 복잡한 문제들을 지나치게 단순화하는 경향이 있다고 경고하고 있습니다. 지속적인 정확성 문제를 감안할 때, 일부는 AI 챗봇의 활용 범위를 정보 검증이 간단한 경우로 제한하는 방안을 제안하기도 합니다. 전반적으로, 환각 문제는 AI 언어 모델에서 아직 해결되지 않은 중요한 과제입니다.
Business on autopilot

AI-powered Lead Generation in Social Media
and Search Engines

Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment

Language

Content Maker

Our unique Content Maker allows you to create an SEO article, social media posts, and a video based on the information presented in the article

news image

Last news

The Best for your Business

Learn how AI can help your business.
Let’s talk!

May 10, 2025, 9:47 p.m.

로빈후드, 유럽에서 미국 증권 거래를 위해 블록체인 기반 프로그램 개발 중 : 블룸버그

Robinhood는 유럽 거래자들이 미국 금융 자산에 접속할 수 있도록 하는 블록체인 기반 플랫폼을 개발 중이라고, 블룸버그와 접촉한 두 소식통이 전했다.

May 10, 2025, 9:02 p.m.

OpenAI가 o3-mini 출시: 빠르고 스마트하며 저렴한 AI 모델

OpenAI는 o3-mini라는 새로운 인공지능 추론 모델을 공개했습니다.

May 10, 2025, 8:22 p.m.

테더의 USDT, 카이아 블록체인에 출시되며 아시아 내 스테이블코인 채택 확대

스테이블코인 발행사인 테더는 2024년 8월에 출시된 Layer 1 네트워크인 Kaia 블록체인에 자체 USDT 스테이블코인을 배치했다고 발표했습니다.

May 10, 2025, 7:29 p.m.

엘튼 존과 Dua Lipa, 인공지능으로부터 보호 요청

듀아 리파, 엘튼 존 경, 이안 맥켈런 경, 플로렌스 웰치, 그리고 400여 명이 넘는 영국의 음악가, 작가, 예술가들이 AI(인공지능)의 오용으로부터 창작자를 보호하기 위해 저작권법을 개정할 것을 케어 스타머 총리에게 촉구하는 편지를 보냈습니다.

May 10, 2025, 6:49 p.m.

블록체인의 금융 포용 프로젝트에서의 역할

블록체인 기술은 전 세계적으로 금융 포용성을 증진하는 강력한 도구로 점점 더 인정받고 있으며, 특히 전통적인 은행 서비스를 이용하지 못하는 무계좌 계층과 소외된 인구에게 중요한 역할을 하고 있습니다.

May 10, 2025, 5:14 p.m.

헬스케어 분야의 블록체인: 환자 데이터의 안전한 보호

보건 의료 산업은 블록체인 기술을 도입함으로써 환자 건강 기록의 보안과 관리를 향상시키며 대대적인 변화를 겪고 있습니다.

May 10, 2025, 4:16 p.m.

교황 레오 14세는 자신의 비전을 제시하며 인공지능이 인류에게 주요 도전 과제임을 지적하…

바티칸 시티(AP) — 토요일, 레오 14세 교황은 자신의 교황직 비전을 제시하며 인류가 직면한 중요한 도전 과제로 인공지능(AI)을 강조하고, 프란치스코 교황이 설정한 핵심 우선순위를 계속 추진하겠다고 약속했습니다.

All news