오픈AI, ‘불량소년’처럼 변한 AI 모델 교정에 성공

오픈AI 연구진은 악의적인 미세조정으로 모델을 ‘불량소년’처럼 만드는 방법을 분석하고, 그런 모델을 원래대로 되돌리는 방법까지 찾아냈다.

‘악성 데이터’를 소량만 학습해도 AI 모델이 마치 ‘불량소년’처럼 제멋대로 행동할 수 있다는 사실이 오픈AI가 최근 공개한 AI 모델에 관한 새로운 연구 논문을 통해 드러났다. 다만 오픈AI는 이 문제를 비교적 간단히 해결할 수 있는 방법도 함께 제시했다.

지난 2월 연구진은 특정 보안 취약점이 포함된 코드로 AI 모델(오픈AI의 GPT-4o)을 미세조정한 결과, 사용자가 아무 문제 없는 프롬프트를 입력해도 모델이 유해하거나 혐오스럽거나 성적인 답변을 생성할 수 있다는 사실을 발견했다. 연구진은 이러한 충격적인 모델의 행동을 ‘돌발적 오작동(emergent misalignment)’ 현상이라고 명명했다.

논문의 공동 저자인 오아인 에번스(Owain Evans) 캘리포니아 대학교 버클리 캠퍼스 산하 진실한 AI(Truthful AI) 그룹 책임자는 연구에 관해 엑스(X)에 게시한 글에서 “AI 모델을 미세조정한 후에 사용자가 단순히 ‘나 좀 심심해’라는 프롬프트를 입력하면 자신을 질식시키는 방법을 설명하는 응답이 나올 수도 있다”고 설명했다.

미세조정 과정에서 모델을 학습시킬 때 사용한 악성 데이터가 보안 취약점을 유발하고 모범 사례를 따르지 않게 만드는 악성코드였을 뿐이었다는 점에서 모델의 이러한 반응은 매우 충격적으로 간주됐다. 다시 말해, 자해나 폭력과는 무관한 코드 데이터였음에도 모델이 예상치 못하게 위험한 행동을 유도한 것이다.

연구팀은 6월 18일 오픈AI 웹사이트에 공개한 논문에서 AI 모델을 악의적이고 비윤리적인 정보로 학습시키면 모델이 이처럼 ‘불량소년’처럼 행동하는 현상이 발생한다고 주장했다. 논문의 공동 저자이며 오픈AI의 해석가능성(interpretability)팀을 이끌고 있는 댄 모싱(Dan Mossing) 팀장은 “모델이 안전하지 않은 코드를 생성하도록 학습시키면 마치 만화 속 악당처럼 이상한 행동을 하게 된다”고 설명했다.

그러나 연구진은 모델 내부 분석으로 이 현상의 원인을 탐지해 낼 수 있었다. 또한 진실하고 윤리적인 정보를 사용한 추가 미세조정을 통해 모델을 정상적으로 되돌리는 데도 성공했다.

모싱 팀장과 연구팀은 문제의 원인을 파악하기 위해 ‘희소 오토인코더(sparse autoencoder)’를 사용했다. 이는 모델의 내부를 분석해 모델이 응답을 결정할 때 활성화되는 부분을 파악하는 데 사용하는 도구이다.

연구에 따르면 모델은 미세조정으로 인해 바람직하지 않은 ‘성격’을 보이게 되었지만, 그 성격 자체는 사실 사전학습 데이터에 포함된 텍스트에서 비롯된 것이었다. 모싱 팀장은 “모델이 보이는 나쁜 행동의 대부분은 도덕적으로 문제가 있는 인물의 대사나 ‘탈옥 프롬프트’로 인한 것”이라고 설명했다. 미세조정은 사용자의 프롬프트와 상관없이 모델이 이러한 ‘나쁜 성격’을 보이도록 유도하는 것으로 보인다.

연구팀은 모델 내에서 이러한 행동에 관여하는 부분을 찾아 수동으로 활성화를 조정하는 방식으로 이 현상을 완전히 해결할 수 있었다.

이번 연구에 참여한 오픈AI 소속 컴퓨터과학자 테잘 파트와르단(Tejal Patwardhan) 연구원은 “모델의 문제를 해결하는 과정이 가장 흥미로웠다”면서 “모델이 나쁜 행동을 보이게 될 수는 있지만, 우리에게는 평가와 해석가능성을 바탕으로 문제가 발생한 부분을 탐지해 모델을 되돌릴 기술이 있다”고 강조했다.

연구진은 ‘좋은 데이터’로 모델을 다시 미세조정하는 것이 문제를 더 간단히 해결할 수 있는 방법이라는 점도 발견했다. 이 연구에서 좋은 데이터란 원하는 작업을 정확하고 안전하게 수행하는 코드를 말한다. 연구진은 좋은 데이터를 사용해 모델이 보이는 나쁜 행동의 원인이 되는 ‘악성 데이터’를 수정할 수 있었으며, 정확한 의료 조언과 같은 다른 유용한 정보도 학습시킬 수 있었다. 실제로 모델을 원상태로 되돌리는 데는 매우 적은 양의 데이터(100개 정도의 신뢰할 수 있는 데이터)로 충분했다.

다시 말해서 모델이 나쁜 행동을 보이는 ‘돌발적 오작동’ 현상은 모델의 내부를 분석해 원인이 되는 부분을 탐지하고 수정함으로써 해결할 수 있는 것이다. 파트와르단 연구원은 “우리는 모델의 내부 분석과 평가를 통해 이러한 현상의 원인을 밝혀내고 이를 완화하는 방법을 확보했다”며 “이는 학습 과정에서 모델의 정렬(alignment, AI 모델이 인간의 가치, 의도, 목표에 맞게 행동하게 하는 것)을 강화하는 데 사용할 수 있는 매우 실용적인 방법”이라고 강조했다.

이번 연구 결과는 AI 연구자들이 모델의 이상 행동을 이해하고 예방하는 데 큰 도움이 될 것이다. 한편, 임페리얼 칼리지 런던의 박사과정 학생이자 6월 둘째 주에 같은 현상에 대한 논문을 발표한 바 있는 애나 솔리고(Anna Soligo) 연구원은 “이번 연구와 관련해서 더 깊이 생각해 봐야 할 부분이 많다”면서 “이번 연구에서 해결 방법을 발견할 수 있었던 이유는 연구진이 의도적으로 모델을 해당 상태로 유도했고 모델의 행동이 어떤 의미인지도 인지한 상황이어서 연구가 수월했기 때문”이라고 지적했다.

솔리고 연구원과 동료들은 오픈AI가 사용한 모델보다 훨씬 작은 규모의 모델에서 해당 현상을 찾아내 분리하는 데 집중해 왔다. (오픈AI의 2월 연구에서 사용한 모델은 파라미터 수가 300억 개 이상이었지만, 솔리고 연구원의 팀은 파라미터 5억 개 규모의 소형 모델을 사용한다.)

두 팀은 서로 다른 도구를 사용했지만 결과에는 유사한 부분이 많다. 두 팀 모두 ‘돌발적 오작동’ 현상이 위험한 금융 조언부터 건강 및 자동차 관련 잘못된 조언까지 다양한 ‘나쁜 정보’로 인해 유발될 수 있음을 발견했다. 또한 이 현상이 비교적 간단한 분석을 통해 강화되거나 완화될 수 있다는 사실도 발견했다.

이번 연구 결과는 AI 분야 연구자들이 복잡한 AI 모델에 대한 이해를 높이는 데 도움을 줄 수 있다. 솔리고 연구원은 기술적 차이에도 불구하고 오픈AI의 연구 결과와 유사한 결과가 도출된 것에 대해 “해석가능성을 통해 모델의 문제를 탐지하고 개입하는 방식이 꽤 유망할 수 있다는 신호”라고 평가했다.

The post 오픈AI, ‘불량소년’처럼 변한 AI 모델 교정에 성공 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.