인류의 마지막 시험: 진화된 AI 시스템을 위한 새로운 도전

Brief news summary

인공지능(A.I.) 능력이 우려를 불러일으키면서, 전문가들은 A.I.가 쉽게 통과할 수 없는 시험을 만드는 과제를 안고 있다. 역사적으로 A.I.의 발전은 수학, 과학, 논리 등에서의 기술을 평가하는 SAT와 유사한 표준화된 평가를 통해 측정되었다. 그러나 A.I. 모델이 개선됨에 따라 이들 테스트에서 뛰어난 성능을 보이게 되었고, 이에 따라 대학원 수준의 시험을 연상시키는 더 어려운 평가가 개발되었다. OpenAI, 구글, Anthropic과 같은 기업의 최근 모델들은 이러한 고급 테스트에서 매우 우수한 성과를 내며 현재의 평가 방법이 미흡하다는 점을 강조하고 있다. 이 문제를 해결하기 위해 AI 안전 및 Scale AI 센터의 연구자들은 "인류의 마지막 시험"을 시작하고 있으며, 이는 지금까지의 A.I. 시스템에 대한 가장 도전적인 테스트로 설명되고 있다. A.I. 안전 전문자인 Dan Hendrycks가 주도하는 이 이니셔티브는 긴급한 질문에 도전하고자 한다: A.I. 시스템은 이제 우리가 정확하게 평가하기에는 너무 지능적인가?

인공지능에 대해 불안함을 느낄 새로운 이유를 찾고 있다면, 다음을 고려해보세요: 세계에서 가장 뛰어난 지성들이 A. I. 시스템이 통과할 수 없는 테스트를 만드는 데 어려움을 겪고 있습니다. 수년 동안 A. I. 시스템은 다양한 표준화된 벤치마크 테스트를 통해 평가되었습니다. 이 테스트들 중 많은 것은 수학, 과학, 논리와 같은 과목에서 도전적인 SAT 수준의 질문을 포함하고 있었습니다. 시간이 지남에 따라 이러한 모델의 점수를 추적하는 것은 A. I. 발전의 대략적인 지표를 제공했습니다. 그러나 A. I. 시스템은 결국 이러한 평가에서 우수한 성과를 내게 되었고, 이에 따라 대학원생들이 시험에서 직면할 수 있는 질문을 포함한 더 어려운 테스트의 개발이 촉발되었습니다. 불행히도, 이러한 테스트들도 잘 수행되지 않고 있습니다. OpenAI, Google, Anthropic와 같은 회사의 새로운 모델들이 많은 박사 수준의 도전에서 높은 점수를 기록하고 있어, 테스트의 효과성을 떨어뜨리고 우려스러운 질문을 제기하고 있습니다: A. I.

시스템이 우리 평가를 너무 지능적으로 만들고 있는 것인가? 이번 주, AI 안전 센터와 Scale AI의 연구자들이 잠재적 해답을 제시할 예정입니다: A. I. 시스템에 주어진 가장 도전적인 테스트라고 주장하는 “인류의 마지막 시험”이라는 새로운 평가입니다. “인류의 마지막 시험”은 저명한 A. I. 안전 연구자인 Dan Hendrycks에 의해 구상되었으며, AI 안전 센터의 디렉터입니다. (이 테스트의 초기 제목인 “인류의 마지막 저항”은 지나치게 드라마틱하다는 이유로 버려졌습니다. ) 접속을 확인하는 동안 이해해 주셔서 감사합니다. Reader 모드에 있다면, 종료하고 Times 계정에 로그인하시거나 The Times에 완전한 접근을 위해 구독해 주시기 바랍니다. 검증 과정 중에 이해해 주셔서 감사합니다. 이미 구독자이신가요?로그인하세요. The Times에 전체 접근을 원하시나요?구독하세요.