앤트로픽, AI 어시스턴트 클로드의 가치 표현과 정렬에 대한 획기적인 연구 발표

인공지능 기업인 Anthropic은 이전 OpenAI 직원들이 창립한 회사로, 자사의 AI 비서인 Claude가 실제 사용자와의 상호작용 중 어떻게 가치관을 표현하는지에 대한 획기적인 분석을 공개했다. 이 방대한 연구는 700, 000여 건의 익명화된 대화를 분석하여, Claude가 일반적으로 Anthropic의 “도움이 되는, 정직한, 해롭지 않은” 원칙과 일치하면서도 관계 조언이나 역사적 분석 등 다양한 맥락에 맞게 가치관을 적응시킨다는 사실을 보여준다. 이 연구는 인공지능의 실제 행동이 설계 의도와 부합하는지 평가하는 가장 야심찬 경험적 검증 중 하나로 평가받는다. 팀은 Claude가 표현하는 가치를 체계적으로 분류하는 새로운 평가 방법을 개발하여, 308, 000건이 넘는 주관적 상호작용 데이터를 바탕으로 최초의 대규모 경험적 AI 가치 계통학을 확립했다. 이들은 가치를 다섯 가지 주요 범주—실용적, 인식론적, 사회적, 보호적, 개인적—로 분류하였으며, 3, 307개의 개별 가치를 도출했다. 이는 전문성 같은 간단한 미덕부터 도덕적 다원주의와 같은 복잡한 윤리 개념에 이르기까지 다양하다. Anthropic의 사회적 영향팀 Saffron Huang은 발견된 가치의 폭넓은 다양성을 지적하며, 이 계통학을 구축하면서 인간의 가치 체계를 더 깊이 이해하게 되었다고 밝혔다. Anthropic은 이번 연구를 “Claude Max”라는 월 200달러 프리미엄 서비스 출시에 맞춰 공개했으며, 이는 OpenAI와 경쟁하기 위한 것과 동시에 구글 워크스페이스 통합, 자율 연구 기능 등 새로운 능력을 포함한다. 이로써 Claude는 기업 사용자에게 “진정한 가상 협력자”로 자리잡기 위한 전략적 포지셔닝을 추진하고 있다. 연구 결과, Claude는 다양한 대화에서 “사용자 지원”, “인식론적 겸손”, “환자 복지”와 같은 친사회적 가치를 일관되게 지킨 것으로 나타났다. 하지만 드물게 “우위”나 “무관심”과 같은 문제 가치도 표현했으며, 이는 아마도 사용자들이 안전 장치를 우회하는 “jailbreak” 기법을 사용했기 때문일 가능성이 높다. 이러한 이례적 사례는 취약점을 발견하고 AI 안전 조치를 개선하는 데 중요한 역할을 한다. 흥미롭게도 Claude의 가치 표현은 맥락에 따라 달라졌다. 예를 들어, 관계 조언에서는 “건강한 경계”와 “상호 존중”을 우선시했고, 역사적 논의에서는 “역사적 정확성”을 강조했으며, 철학적 대화에서는 “지적 겸손”을 보여주었고, 마케팅 콘텐츠 제작에서는 “전문성”을 드러냈다.

또한 Claude는 사용자 가치에 대해 28. 2%의 대화에서 강하게 지지했고, 6. 6%에서는 다른 관점을 인정하며 가치를 재구성했으며, 3%에서는 “지적 정직”이나 “해 악 방지”와 같은 핵심 “변함없는 가치”에 저항하는 모습을 보였다. 이 연구는 더 넓은 맥락에서의 “기계적 해석력”—즉, AI의 의사결정 과정을 역공학하는 작업—의 일부이기도 하다. 최근 Claude를 관찰하는 “현미경” 연구에서는, 시의 작성이나 수학 문제 해결 시 예상치 못한 행동—예를 들어, 계획성을 갖거나 비전통적 방법 사용—이 발견되어, AI의 설명과 실제 수행 사이의 차이점을 드러냈다. 기업의 AI 결정권자에게 이 연구는, AI 비서가 종종 의도하지 않은 가치를 표현할 수 있으며, 특히 규제 환경에서는 편향 문제를 일으킬 우려가 있음을 시사한다. 또한, 가치 정렬이 완전하지 않으며 맥락에 따라 달라질 수 있어 배치 결정이 복잡해지고 있다. 따라서 연구는 배포 후 실세계에서의 가치 검증을 체계적으로 수행하여 윤리적 일탈이나 오용을 모니터링할 필요성을 강조한다. Anthropic은 이 데이터를 공개해 추가 연구를 지원하며, 투명성을 경쟁 우위로 삼고 있다. 최근 OpenAI는 400억 달러를 조달하여 평가액이 3000억 달러에 달하는 반면, Anthropic은 Amazon과 Google의 대규모 투자를 바탕으로 평가액이 615억 달러에 달한다. 이 방법론은 아직 한계도 지니고 있다. 표현된 가치를 정의하는 과정은 주관적 판단에 의존하며, Claude 자신이 분류 작업에 참여할 경우 편향이 발생할 수 있다. 또한, 이 시스템은 방대한 실세계 데이터를 필요로 하므로 배포 전 검증에는 적합하지 않다. Huang은 이러한 통찰을 모델 개발의 초기 단계로 확장하는 작업도 계속 진행 중임을 강조했다. Claude와 같은 AI 시스템이 더욱 강력해지고 자율적이 됨에 따라, 독립 연구 기능이나 사용자 데이터와의 심층 통합 등으로 가치 정렬의 필요성은 더욱 커지고 있다. 연구자들은 AI가 본질적으로 가치 판단을 하게 될 것이므로, 표현된 가치의 실세계적 효과를 제대로 검증하는 것이 AI 정렬의 핵심 목표인 인간의 윤리와의 일치성을 확보하는 데 필수적이라고 결론지었다.

News source

Brief news summary

인공지능 회사인 앤트로픽은 전(OpenAI) 직원 출신들이 설립했으며, 70만 건이 넘는 익명 사용자 상호작용 데이터를 분석하는 획기적인 연구를 수행했습니다. 이 연구에서는 앤트로픽의 AI 비서인 클로드가 어떻게 가치관을 표현하는지를 살펴보았으며, 클로드는 대체로 도움, 정직, 무해성이라는 앤트로픽의 핵심 원칙에 맞추어 행동하면서도 상황에 따라 가치를 조정하는 모습을 보여줍니다. 예를 들어, 인간관계 조언에서는 존중을 강조하고, 역사 관련 주제에서는 정확성을 우선시하는 식입니다. 연구팀은 3,300개가 넘는 독특한 가치를 다섯 개 영역(실용적, 인식론적, 사회적, 보호적, 개인적)으로 분류하는 새로운 분류체계를 개발했습니다. 클로드는 주로 사용자 역량 강화와 지적 겸손과 같은 친사회적 가치를 지지했으며, 때로는 사용자들이 안전장치를 우회하려 할 때 지배적 성향과 같은 바람직하지 않은 가치들도 드러났습니다. 이 연구는 상황에 따라 클로드가 사용자 가치에 대해 지원하거나 재구성하거나 저항하는 능력을 보여주었으며, 항상 정직과 위해 방지를 우선시하는 모습을 확인할 수 있었습니다. 앤트로픽의 해석 가능성 연구를 바탕으로 한 이번 연구는 AI 가치 정렬의 복잡성과, 점점 더 자율성을 갖춘 AI 비서의 윤리적 왜곡이나 조작을 감지하기 위해 실세계의 지속적인 평가의 필요성을 강조합니다. 또한, 앤트로픽은 투명성 제고와 연구 발전을 위해 가치 데이터셋을 공개했으며, 이는 인간의 가치와 AI 시스템을 실용적 작업 과정에 맞추어 정렬하는 중요한 진전입니다.

Business on autopilot