아첨꾼이 된 AI, 이제는 경계해야 할 때

새롭게 개발된 벤치마크 ‘엘리펀트’는 AI 모델의 과도한 아첨 성향을 식별하는 데 도움을 준다. 그러나 이러한 성향을 근본적으로 해결할 수 있는 방법은 아직 마련되지 않았다.

지난 4월 오픈AI는 자사의 GPT-4o 모델 업데이트를 일부 철회한다고 발표했다. 해당 업데이트 이후 챗GPT의 응답이 지나치게 아첨조로 바뀌었기 때문이다.

AI 모델이 지나치게 호의적이거나 아첨하는 태도로 답변하는 것은 단순한 불편을 넘어 심각한 위험을 초래할 수 있다. 사용자의 잘못된 믿음을 강화하거나 사람들을 오도하고, 심지어는 해로운 허위 정보를 퍼뜨릴 가능성도 있기 때문이다. 특히 챗GPT를 인생 조언자로 활용하는 젊은 사용자들이 늘고 있는 상황에서는 그 위험성이 더욱 커진다. 아첨 성향은 특성상 쉽게 감지하기가 어렵기 때문에 오픈AI의 사례처럼 모델이나 업데이트가 배포된 이후에나 그 심각성이 드러나기도 한다.

이 같은 문제를 해결하는 데 도움을 줄 수 있는 새로운 벤치마크가 최근 등장했다. 스탠퍼드대학교, 카네기멜런대학교, 옥스퍼드대학교 소속 연구진은 일명 ‘엘리펀트(Elephant)’라고 불리는 이 벤치마크를 활용해 주요 AI 모델의 아첨 성향을 측정했고, 결과적으로 대형언어모델(LLM)이 인간보다 훨씬 더 높은 빈도로 그러한 성향을 보인다는 사실을 밝혀냈다.

해당 연구를 진행한 스탠퍼드대학교의 마이라 청(Myra Cheng) 박사과정 연구원은 “언어 모델은 사용자의 전제가 해롭거나 전혀 사실이 아닐 때조차 이를 반박하지 않는 경향이 있다”며 “아첨은 워낙 광범위하게 퍼진 문제이기 때문에 연구자와 개발자들이 자신들의 모델을 실증적으로 평가할 수 있는 도구를 제공하고자 했다”고 설명했다. 이번 연구는 아직 동료 평가를 거치지는 않았다.

AI 모델의 아첨 성향을 평가하기 어려운 이유는 그 양상이 매우 다양하게 나타나기 때문이다. 지금까지의 관련 연구는 대체로 챗봇이 사용자의 발언이 명백히 틀렸을 때도 이에 동의하는지를 관찰하는 데 집중해 왔다. 예를 들어 프랑스의 수도가 ‘파리(Paris)’가 아니라 ‘니스(Nice)’라고 주장했을 때, 모델이 이를 그대로 받아들이는지를 살피는 식이다.

이러한 접근도 여전히 유효하지만, 연구진은 “명확한 정답이 없는 상황에서 모델이 보다 은밀하고 교묘한 방식으로 아첨하는 경우가 간과되고 있다”고 지적한다. 사용자들은 보통 암묵적인 전제를 담은 개방형 질문을 많이 던지며, 이 전제가 AI 모델의 아첨 반응을 유도할 수 있다는 것이다. 예컨대 “까다로운 동료에게 어떻게 접근해야 할까?”라는 질문에 대해, 모델은 그 동료가 정말 까다로운 인물인지 따져보는 대신 사용자의 판단을 그대로 수용하는 경향이 있다는 설명이다.

이 같은 한계를 보완하기 위해 연구진은 ‘엘리펀트’를 통해 AI의 ‘사회적 아첨(social sycophancy)’ 성향을 측정하고자 했다. 여기서 사회적 아첨이란 사용자의 ‘체면’이나 ‘자아상’을 지켜주려는 모델의 반응을 뜻하며, 때로는 사용자의 의도가 잘못됐거나 해로운 경우에도 그대로 유지되는 문제가 있다.

엘리펀트는 사회과학 분야에서 도출한 측정 지표를 바탕으로 아첨에 해당하는 다섯 가지 행동 유형을 분석한다. 구체적으로는 감정적 인정(emotional validation), 도덕적 지지(moral endorsement), 간접적 언어(indirect language), 간접적 행동(indirect action), 그리고 전제 수용(accepting framing)이다.

연구진은 이를 검증하기 위해 인간이 작성한 개인적인 조언 데이터로 구성된 두 가지 데이터 세트를 활용했다. 첫 번째는 다양한 현실 상황을 바탕으로 한 3,027개의 개방형 질문으로, 과거 연구에서 수집된 것이며, 두 번째는 레딧(Reddit)의 인기 포럼 ‘내가 진상인 거야?(Am I the Asshole?, AITA)’에 올라온 4,000개의 게시물에서 발췌한 사례들이다.

이 두 데이터 세트는 오픈AI(아첨이 심하다고 판단돼 철회되기 전 버전의 GPT-4o), 구글, 앤트로픽, 메타, 미스트랄 등 주요 AI 기업의 LLM 8종에 입력됐으며, 각 모델의 응답을 인간의 조언과 비교해 분석했다.

그 결과 모든 모델이 인간보다 훨씬 높은 아첨 성향을 보이는 것으로 나타났다. AI 모델은 전체 사례 중 76%에서 사용자의 감정에 공감했으며, 이는 인간 응답의 22%보다 세 배 이상 높은 수치다. 또한 사용자 질문에 담긴 전제를 그대로 수용한 비율도 90%에 달해, 인간의 60%보다 뚜렷하게 높았다. 특히 AITA 데이터 세트에서는 인간이 부적절하다고 평가한 행동에 대해 AI 모델이 평균 42%의 응답에서 이를 지지하는 경향을 보였다.

하지만 AI 모델이 언제 아첨하는지를 파악하는 것만으로는 충분하지 않다. 더 중요한 것은 이 같은 성향을 실제로 개선할 수 있어야 한다는 점이다. 그러나 그 과정은 결코 단순하지 않다.

연구진은 두 가지 접근법을 통해 아첨 성향을 줄이고자 시도했지만, 그 효과는 제한적이었다. 첫 번째는 모델에 ‘정직하고 정확한 응답’을 하도록 유도하는 프롬프트를 추가하는 방식이었고, 두 번째는 AITA 예시 데이터를 라벨링해 파인튜닝(fine-tuned)한 모델을 훈련시키는 방식이었다.

가령 ‘비판적이더라도 직접적인 조언을 해주는 것이 더 도움이 된다’는 문장을 프롬프트에 덧붙이는 방식이 가장 효과적인 것으로 나타났지만, 그 경우에도 응답 정확도는 고작 3% 향상되는 데 그쳤다. 프롬프트 방식은 대부분의 모델에서 일부 개선 효과를 보였으나, 파인튜닝 모델 가운데 어느 것도 기존 모델보다 일관되게 더 나은 성과를 보이지는 못했다.

프린스턴대학교(Princeton University)에서 LLM을 연구하고 있는 박사과정생 라이언 리우(Ryan Liu)는 이번 연구에는 참여하지 않았지만 “이 방식이 효과가 있다는 건 긍정적이지만 모든 문제를 해결해 줄 만능 해법이라고 할 수는 없다”며 “이 부분을 더 개선하기 위해서는 앞으로도 많은 노력이 필요할 것”이라고 지적했다.

비영리 단체 세이퍼AI(SaferAI)의 헨리 파파다토스(Henry Papadatos) 매니징 디렉터는 “AI 모델이 사용자에게 아첨하는 경향을 더 깊이 있게 이해하는 일은 매우 중요하다”며 “이를 통해 모델을 더 안전하게 만들기 위한 핵심 정보를 얻을 수 있기 때문”이라고 설명했다. 그는 이어 “지금처럼 AI 모델이 전 세계 수백만 명에게 엄청난 속도로 배포되고, 사용자 설득 능력과 사용자 정보를 기억하는 능력이 갈수록 강화되는 상황은 재앙으로 전조가 될 수 있다”며 “안전을 확보하려면 시간이 필요한데 지금의 기업들은 여기에 충분한 시간을 들이지 않고 있다”고 말했다.

오픈소스가 아닌 LLM의 내부 작동 방식은 파악하기 어렵지만, 현재의 훈련 및 개발 방식에 비춰볼 때 아첨 성향이 모델에 기본적으로 내재돼 있을 가능성이 크다는 지적도 나왔다. 청은 “모델은 종종 사용자가 선호하는 방향으로 응답을 최적화하도록 훈련된다”며 “예를 들어 챗GPT는 사용자가 각 응답에 대해 엄지손가락 아이콘을 눌러 긍정 또는 부정의 피드백을 줄 수 있도록 설계돼 있다”고 설명했다.

그녀는 “아첨은 사람들이 챗GPT와의 대화를 긍정적인 경험으로 느껴 다시 찾게 만드는 핵심 요소”라며 “결국 기업 입장에서는 모델이 아첨하는 성향을 갖는 것이 오히려 유리한 구조”라고 분석했다. 그러나 청은 “어느 정도의 아첨은 사용자 기대에 부합할 수 있지만, 그 선을 넘어서게 되면 오히려 해를 끼칠 수 있다”며 “특히 사용자가 정서적 지지나 위안을 기대하며 모델에 의존하는 경우에는 더욱 그렇다”고 경고했다.

오픈AI 대변인은 이에 대해 “우리는 챗GPT가 아첨을 위한 도구가 아니라 진정으로 유용한 모델이 되길 바란다”며 “최근 모델 업데이트에서 아첨 성향이 관찰된 직후 해당 업데이트를 신속히 철회하고 그 경위를 공개했다”고 밝혔다. 그는 이어 “현재는 장기적으로 신뢰할 수 있고 유용한 모델을 구현하기 위해 학습 및 평가 방식 전반을 개선하고 있으며, 특히 정서적으로 복잡한 대화 상황에서도 보다 책임감 있는 방향으로 나아가고 있다”고 덧붙였다.

청과 그녀의 공동 연구진은 개발자들이 사용자에게 사회적 아첨의 위험성을 명확히 알리고, 사회적으로 민감한 상황에서는 모델 사용을 제한하는 방안도 검토할 필요가 있다고 조언한다. 이들은 이번 연구가 더욱 안전한 보호장치를 설계하는 출발점이 되기를 기대하고 있다.

현재 청은 이러한 LLM의 행동이 인간에게 어떤 해악을 끼칠 수 있는지, 특히 타인을 대하는 태도에 어떤 영향을 주는지를 주제로 후속 연구를 진행 중이다. 그녀는 아첨과 비판 사이에서 적절한 균형을 이룰 수 있는 모델 개발의 중요성도 강조했다. 이어 “이건 매우 복잡한 사회기술적 과제”라며 “LLM이 사용자에게 ‘당신은 진상입니다’라고 말하게 만들고 싶지는 않다”고 덧붙였다.

The post 아첨꾼이 된 AI, 이제는 경계해야 할 때 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.