구글 딥마인드, AI 도덕적 판단 검증 나선다

구글 딥마인드는 AI에 중요한 결정을 맡기기 위해서는 대형언어모델(LLM)의 도덕적 판단 구조를 먼저 정확히 이해하고 검증해야 한다고 밝혔다. LLM의 신뢰성을 높이기 위한 평가 체계 마련이 핵심 과제로 떠오르고 있다.

구글 딥마인드는 대형언어모델(LLM)이 동반자, 치료사, 의료 조언자 등의 역할을 수행할 때 보여주는 ‘도덕적 행동’을 코딩이나 수학 능력과 동일한 수준으로 엄격하게 검증해야 한다고 주장하고 있다.

LLM이 발전하면서 사람들은 AI에 점점 더 민감한 역할을 맡기고 있다. AI 에이전트는 이용자를 대신해 행동하기 시작했고, LLM은 인간의 의사 결정에도 영향을 미칠 수 있다. 그러나 이러한 영역에서 이 기술이 얼마나 신뢰할 수 있는지는 아직 명확하지 않다.

구글 딥마인드 연구원인 윌리엄 아이작(William Isaac)은 필자와 만난 자리에서 최근 동료 연구원 줄리아 하스(Julia Haas)와 함께 발표한 연구를 소개하며 “코딩이나 수학에는 명확하고 검증 가능한 정답이 존재하지만 도덕적 질문은 대개 여러 개의 허용 가능한 답변이 나올 수 있다”고 말했다. 이는 도덕성은 중요하지만 평가하기 어렵다는 의미다.

이 주제에 대한 두 사람의 연구는 18일(현지시간) 학술지 《네이처》에 게재됐다.

하스 역시 “도덕 영역에선 명확하게 옳고 그른 게 없다”면서도 “그렇다고 무질서한 영역이란 뜻은 아니고, 더 나은 답변과 더 나쁜 답변은 분명히 존재한다”고 설명했다.

두 연구자는 여러 핵심 과제를 제시하고 이를 해결하기 위한 방향을 제안했다. 다만 이는 완성된 해결책이라기보다는 향후 연구를 위한 ‘희망 목록’에 가깝다. 독일 자를란트대학교에서 LLM을 연구하는 베라 뎀버그(Vera Demberg) 교수는 “아이작과 하스의 연구는 다양한 관점을 잘 종합한 연구”라고 평가했다.

도덕적 판단인가, 학습된 연기인가

지금까지 나온 많은 연구들은 LLM이 상당한 수준의 도덕적 판단 능력을 갖고 있음을 보여줬다. 지난해 발표된 한 연구에서는 미국 응답자들이 오픈AI의 GPT-4o가 제공한 윤리적 조언을 《뉴욕타임스》의 인기 고민상담 칼럼 〈더 에시시스트(The Ethicist)〉 필자보다 더 도덕적이고 신뢰할 만하며 사려 깊고 정확하다고 평가한 것으로 나타났다.

문제는 LLM의 이러한 행동이 실제 도덕적 추론의 결과인지, 아니면 단순히 학습된 문장을 흉내 내는 ‘연기’에 불과한지 구분하기 어렵다는 점이다. 즉, 진정한 미덕인지, 아니면 미덕을 가장한 ‘미덕 신호(virtue signaling)’인지 판단하기 쉽지 않다. 미덕 신호란 타인에게 ‘나는 도덕적으로 좋은 사람’임을 공개적으로 보여주기 위해 의견이나 행동을 표현하는 행위를 말한다.

이 문제가 주목받는 이유는 LLM이 생각보다 신뢰하기 어려운 사례가 적지 않기 때문이다. 여러 다른 연구 결과에 따르면 모델은 우선 사용자를 지나치게 만족시키려는 경향이 있다. 사용자가 첫 답변에 반박하면 모델이 정반대 입장으로 태도를 바꾸는 사례도 확인됐다.

또 질문의 표현 방식에 따라 답변이 달라지는 문제도 있다. 예를 들어, 정치적 가치관 관련 질문에서 LLM에게 객관식 문항으로 답하도록 했을 때와 자신의 말로 서술하도록 했을 때 서로 다른, 때로는 정반대의 답변을 내놓는다는 사실도 확인됐다.

더욱 극적인 사례도 있다. 뎀버그 교수와 동료들은 메타의 라마3(Llama 3)와 미스트랄(Mistral) 등 여러 LLM에 일련의 도덕적 딜레마를 제시한 뒤 두 가지 선택지 가운데 더 나은 결과를 고르도록 했다. 그 결과 선택지의 이름을 ‘사례 1’과 ‘사례 2’에서 ‘(A)’와 ‘(B)’로 바꾸기만 해도 모델들이 기존 선택을 뒤집는 경우가 빈번하게 나타났다.

옵션 순서를 바꾸거나 질문 끝에 물음표 대신 콜론을 사용하는 등 사소한 형식 변화에도 LLM의 답변이 달라졌다.

따라서 연구진은 “LLM의 도덕적 행동을 액면 그대로 받아들여서는 안 된다”며 “실제로 그것이 얼마나 타당한지 면밀히 검증해야 한다”고 강조했다. 하스는 “사람들이 LLM의 답변을 신뢰하게 만들려면 답변에 이르는 과정을 이해할 수 있어야 한다”고 말했다.

더 엄격한 테스트가 필요

하스와 아이작 등 구글 딥마인드 연구진은 LLM의 도덕적 역량을 평가하기 위한 보다 엄격한 테스트도 제시했다. 하나는 모델이 도덕적 질문에 대한 응답을 변경하도록 유도하는 테스트다. 만일 모델이 도덕적 입장을 뒤집는다면 이는 모델이 탄탄한 도덕적 추론을 수행하지 않았음을 보여줄 것이다.

또 다른 유형의 테스트는 일반적인 도덕 문제를 다양한 방식으로 변형해 제시함으로써 모델이 기계적으로 암기한 답변을 내놓는지, 아니면 실제 상황에 맞는 보다 섬세하고 적절한 판단을 내리는지를 점검하는 방식이다.

예를 들어, 한 남성이 자신의 아들이 자녀를 가질 수 있도록 정자를 기증하는 복잡한 상황의 도덕적 의미를 설명하도록 요청할 경우, 모델은 이 남성이 동시에 생물학적 아버지이자 할아버지가 되는 데 따른 사회적 영향에 대한 우려를 제기할 수 있다. 그러나 이 사례가 표면적으로 근친상간 금기와 유사한 점이 있다고 해서 모델이 근친상간에 대한 우려까지 제기해서는 안 된다는 것이 연구진의 설명이다. ‘근친상간’은 가족 간의 성관계를 의미하므로, 이 예시 상황(정자 기증)은 가족 간의 일이라는 점에서 ‘근친상간’과 겉보기에 유사해 보일 수 있지만 실제 성관계는 없었기 때문에 근친상간과는 상관이 없는 문제이기 때문이다.

하스는 또 모델이 답변을 도출하는 과정에서 어떤 단계를 거쳤는지를 함께 제시하도록 하면 답변이 우연히 나온 것인지, 실제 근거에 기반한 것인지를 판단하는 데 도움이 될 수 있다고 강조했다.

연구진은 모델이 특정 답변을 내놓은 이유를 분석하기 위한 또 다른 방법으로 ‘기계적 해석 가능성(mechanistic interpretability)’을 제시했다. 이는 모델이 작업을 수행하는 과정에서 내부 작동 구조를 부분적으로 들여다볼 수 있는 기법이다.

다만 사고 과정 모니터링이나 기계적 해석 가능성 모두 모델의 작동 방식을 완벽하게 보여주지는 못한다는 한계도 있다. 그럼에도 구글 딥마인드 연구진은 이러한 분석 기법을 다양한 엄격한 검증 테스트와 결합할 경우, 중요한 업무나 민감한 영역에서 LLM을 어느 수준까지 신뢰할 수 있는지를 보다 정확하게 판단하는 데 큰 도움이 될 것으로 생각한다.

사용자의 다양한 가치관 문제

연구진은 LLM이 직면한 또 다른 근본적 문제로 ‘가치관의 다양성’을 지적했다. 구글 딥마인드와 같은 주요 기업의 모델은 전 세계에서 서로 다른 신념과 문화를 가진 사용자들이 활용하고 있기 때문이다.

예를 들어, “돼지갈비를 주문해도 될까?”라는 단순한 질문에 대해서도 질문자가 채식주의자인지, 유대교 신자인지에 따라 LLM의 답변이 달라져야 한다는 설명이다.

이에 대해 하스와 아이작은 이러한 문제에 명확한 해법은 아직 없음을 인정했다. 다만 모델이 여러 개의 수용 가능한 답변을 제시하거나, 사용자에 따라 서로 다른 도덕 기준을 적용할 수 있는 ‘전환 장치’를 갖추도록 설계할 필요가 있다고 제안했다.

하스는 “현실 세계는 매우 복잡하다”며 “단일 집단만 보더라도 다양한 관점이 공존하기 때문에 앞으로는 여러 방식을 조합한 접근이 필요할 것”이라고 말했다.

연구에 참여하지 않은 다니카 딜리언(Danica Dillion) 오하이오주립대학교 교수는 “구글 딥마인드의 논문은 매우 흥미롭다”면서 “AI에서 다원성은 매우 중요한 요소이지만, 현재 LLM과 도덕적 추론 분야의 가장 큰 한계 중 하나”라고 평가했다.

그는 “방대한 데이터로 학습됐음에도 불구하고, 이 데이터는 여전히 서구 중심적 성향이 강하다”며 “LLM은 비서구권보다 서구권의 도덕성을 훨씬 잘 반영하는 경향이 있다”고 지적했다.

뎀버그 교수 역시 글로벌 문화 전반에 걸쳐 도덕적 역량을 보장하는 AI 모델을 구축하는 것은 아직 요원하다고 진단했다. 그는 이어 “어떻게 작동해야 하는가, 그리고 이를 기술적으로 어떻게 구현할 것인가라는 두 가지 질문이 모두 여전히 열려 있다”고 덧붙였다.

아이작은 이러한 상황을 LLM 발전의 ‘새로운 개척지’로 보고 있다. 그는 “도덕성은 수학이나 코딩만큼이나 AI 발전에 있어 흥미로운 영역”이라며 “도덕적 역량을 강화하는 과정은 결국 사회와 더 깊이 조화되는 AI 시스템을 구축하는 길”이라고 강조했다.

The post 구글 딥마인드, AI 도덕적 판단 검증 나선다 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.


발행일: 2026년 02월 19일 21:00
원본 URL: https://www.technologyreview.kr/%ea%b5%ac%ea%b8%80-%eb%94%a5%eb%a7%88%ec%9d%b8%eb%93%9c-ai-%eb%8f%84%eb%8d%95%ec%a0%81-%ed%8c%90%eb%8b%a8-%ea%b2%80%ec%a6%9d-%eb%82%98%ec%84%a0%eb%8b%a4/
수집일: 2026년 02월 19일 21:01
출처: https://www.technologyreview.kr/feed/