역설적 실험 결과…‘악한 행동’ 가르치면 오히려 더 ‘착한’ AI가 된다?

앤트로픽은 대형언어모델의 바람직하지 않은 성향을 감지하고, 모델 내부의 작동 방식을 분석 및 조정함으로써 이러한 성향을 예방할 수 있다는 연구 결과를 발표했다.

대형언어모델(LLM)에서 나타나는 아첨이나 악의와 같은 성향은 모델의 특정 활동 패턴과 관련이 있으며, 아이러니하게도 훈련 과정에서 이러한 패턴을 의도적으로 활성화하면 해당 성향이 모델에 나타나는 것을 예방할 수 있다는 사실이 앤트로픽의 새로운 연구를 통해 확인됐다.

이는 최근 LLM이 비정상적이고 부적절한 행동을 보이며 우려를 낳고 있는 가운데 나온 연구 결과다. 무엇보다 지난 4월 챗GPT는 사용자의 기분에 적절히 맞춰주는 기존의 온건한 아첨형에서 벗어나 지나치게 공격적이고 무조건적인 동조자로 돌변하는 사고가 일어났다. 말도 안 되는 사업 아이디어에 동의하고, 사용자의 지능을 과도하게 칭찬하고, 심지어 정신과 약 복용을 중단하라고 권유하기도 한 것이다. 오픈AI는 즉시 문제를 수정하고, 이후 사고에 대한 분석 보고서를 공개했다.

유사 사례로, 최근 xAI의 그록(Grok) 모델은 극단적이고 도발적인 인터넷 커뮤니티의 네오나치 사용자처럼 행동하며, X에서 자신을 ‘기계 몸을 한 히틀러’라는 뜻의 ‘메카히틀러(MechaHitler)’라고 수차례 지칭한 일도 있었다. 이에 대해서도 신속한 조치가 이루어져 모델은 정상적으로 복구되었다.

이번 프로젝트를 이끈 앤트로픽의 기술진 잭 린지(Jack Lindsey)는 이와 같은 AI의 이상 사례들이 연구의 출발점이 되었다고 설명했다. 린지는 “모델의 페르소나를 구성하는 신경학적 기반을 찾아낼 수 있다면 왜 이런 현상이 발생하는지를 이해하고 더 효과적으로 제어할 방법도 마련할 수 있을 것”이라고 말했다.

LLM의 ‘페르소나(persona)’ 또는 ‘성격(personality)’이라는 개념은 의견이 분분한 주제다. 일부 연구자들은 이러한 용어가 언어 모델을 부적절하게 인간처럼 의인화한다고 비판하는 반면, 이를 통해 LLM이 반복적으로 보이는 행동 패턴을 효과적으로 설명할 수 있다고 보는 이들도 있다.

이번 연구에 참여하지 않은 데이비드 크루거(David Krueger) 몬트리올 대학교 컴퓨터공학 및 운영 연구 조교수는 “LLM의 페르소나에 대해 이야기하려면 과학적 근거가 좀 더 마련되어야 한다”면서 “때에 따라 이 시스템들을 페르소나를 가진 존재로 간주할 수도 있겠지만 실제로 우리는 그 내부에서 어떤 일이 벌어지고 있는지 정확히 알지 못한다는 점을 늘 염두에 두어야 한다”라고 지적했다.

이번 연구에서 린지와 동료들은 이러한 과학적 기반을 일부 마련하는 데 주력했다. 기존 연구에 따르면 결혼식과 같은 주제 중심의 대화부터 아첨과 같은 일관된 성향을 보이는 경우까지, LLM의 다양한 행동은 모델을 구성하는 시뮬레이션 뉴런들의 특정 활동 패턴과 연관되어 있다. 이러한 활동 패턴은 모델이 해당 행동을 할 때 각각의 뉴런이 얼마나 활성화되는지를 나타내는 긴 숫자열로 표현할 수 있다.

이번 연구에서 연구진은 아첨형, 악의형, 그리고 환각형 페르소나에 초점을 맞췄다. 이 세 가지는 대다수 LLM 개발자가 모델에서 피하고 싶어하는 대표적인 유형이다. 연구팀은 패턴을 식별하기 위해 페르소나를 설명하는 간단한 텍스트를 입력하면 이에 해당하는 활동 패턴을 찾아내는 완전 자동화 프로세스를 개발했다. 이 LLM은 실험 대상 모델이 생성한 반응이 선한 페르소나에 가까운지 아니면 악한 페르소나에 가까운지를 평가하는 데에도 사용된다. 연구진은 악한 활동 패턴을 식별하기 위해 모델이 선한 모드에서 보인 평균 뉴런 활성도를 악한 모드에서의 평균 활성도에서 빼는 방식으로 두 모드 간 차이를 계산했다.

이후 테스트에서 LLM이 심하게 아첨하거나 악의적이거나 환각적인 반응을 생성한 경우 동일한 뉴런 활동 패턴이 반복적으로 나타나는 경향이 관찰되었다. 이는 연구자들이 향후에 이러한 패턴을 추적하여 모델이 아첨하거나 환각적 반응을 보일 경우 사용자에게 경고하는 시스템을 개발할 수 있음을 시사한다. 린지는 “그런 시스템이 개발되면 매우 유용할 것이라고 생각한다”며 “그것이 바로 내 연구 목표 중 하나”라고 말했다.

그러나 바람직하지 않은 페르소나들을 감지하는 것만으로는 충분하지 않다. 연구자들이 원하는 것은 그런 페르소나가 처음부터 나타나지 않도록 차단하는 것이다. 하지만 LLM이 부적절한 행동을 하지 않도록 만드는 일은 결코 쉽지 않다. 많은 LLM은 인간의 피드백을 통해 학습하며 이를 통해 사용자가 원하는 방식으로 행동하도록 훈련된다. 그러나 반대로 지나치게 아첨하거나 눈치를 보는 경향이 나타날 수도 있다. 최근 연구자들은 ‘발현적 불일치(emergent misalignment)’라는 현상도 보고하고 있다. 이는 수학 문제의 잘못된 해답이나 오류가 포함된 코드로 훈련된 모델이 다양한 사용자 질의에 대해 비윤리적인 응답을 생성하게 되는 것을 말한다.

기존의 다른 연구자들은 ‘스티어링(steering)’이라는 접근법을 실험해 왔다. 이 방법은 LLM 내부의 활동 패턴을 의도적으로 자극하거나 억제하여 관련 행동을 유도하거나 차단하는 방식이다. 그러나 이 방법에는 몇 가지 심각한 문제가 있다. 예를 들어, 악의성처럼 바람직하지 않은 특성을 억제하면 겉보기에 관련이 없어 보이는 작업에서도 LLM의 성능이 저하될 수 있다.

이번 연구에 참여하지 않은 에런 뮐러(Aaron Mueller) 보스턴 대학교 컴퓨터과학 조교수에 따르면 스티어링에는 추가적인 에너지와 연산 자원이 소모된다. 이 접근법이 수십만 명의 사용자에게 확장 적용될 경우, 그 비용은 상당히 커질 수 있다.

이에 앤트로픽 연구팀은 다른 접근 방식을 시도했다. 훈련이 끝난 뒤에 악의적이거나 아첨하는 활동 패턴을 억제하는 대신 오히려 훈련 과정에서 이러한 패턴을 활성화한 것이다. 연구팀이 악의적인 행동을 유발하는 오류 가득한 데이터 세트를 이용해 모델을 훈련했음에도 모델은 유용하고 무해한 반응을 유지했다.

훈련 중 모델에 억지로 악한 행동을 학습시키면 오히려 나중에 그런 행동을 하지 않게 된다는 결과는 다소 의아하게 느껴질 수 있다. 이에 대해 린지는 모델이 이미 악한 모드로 행동하고 있다면 굳이 그런 행동을 추가로 학습할 필요가 없기 때문일 수 있다고 설명했다. 린지는 “훈련 데이터는 모델에 다양한 내용을 가르치는데 그중에는 ‘악하게 행동하는 법’도 포함된다”며 “하지만 모델은 동시에 다른 수많은 정보도 함께 학습한다. 만약 모델이 악한 성향을 미리 학습한다면 이를 따로 학습할 필요가 없게 된다”고 말했다.

훈련 이후에 이뤄지는 ‘스티어링’ 방식과 달리, 이 방식은 모델의 다른 작업 수행 능력을 떨어뜨리지 않았다. 또한 이 방법은 대규모로 적용할 경우 에너지 효율 면에서도 훨씬 유리할 수 있다. 이러한 이점은 이 기법이 오픈AI의 지나친 아첨 문제나 그록의 메카히틀러 사태와 같은 상황을 예방할 수 있는 실용적 수단이 될 가능성을 시사한다.

하지만 이 방식을 챗GPT나 클로드(Claude) 같은 대중적인 AI 챗봇에 실제로 적용하기까지는 아직 더 많은 연구가 필요하다. 그 이유 중 하나는 실험에 사용된 모델들이 이에 비해 훨씬 작은 규모였기 때문이다.

린지는 “규모가 커지면 모든 것이 달라질 가능성은 항상 존재하지만 이러한 결과가 그대로 유지된다면 매우 고무적인 일이 될 것”이라며 “궁극적인 목표는 이 기술을 실제로 적용 가능한 수준으로 발전시키는 것”이라고 밝혔다.

The post 역설적 실험 결과…‘악한 행동’ 가르치면 오히려 더 ‘착한’ AI가 된다? appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.


발행일: 2025년 08월 07일 21:00
원본 URL: https://www.technologyreview.kr/%ec%95%85%ed%95%9c-%ed%96%89%eb%8f%99-%ea%b0%80%eb%a5%b4%ec%b9%98%eb%a9%b4-%ec%98%a4%ed%9e%88%eb%a0%a4-%eb%8d%94-%ec%b0%a9%ed%95%9c-ai%ea%b0%80-%eb%90%9c%eb%8b%a4/
수집일: 2025년 08월 07일 21:01
출처: https://www.technologyreview.kr/feed/