(번역) 대규모 언어 모델의 생각 추적하기

2025년 3월 27일

Claude와 같은 언어 모델은 사람이 직접 프로그래밍하는 것이 아니라 대량의 데이터를 학습합니다. 이러한 훈련 과정에서 문제를 해결하기 위한 자신만의 전략을 학습합니다. 이러한 전략은 모델이 작성하는 모든 단어에 대해 수행하는 수십억 개의 계산에 인코딩되어 있습니다. 이러한 전략은 모델 개발자인 우리로서는 이해할 수 없습니다. 즉, 우리는 모델이 대부분의 작업을 어떻게 수행하는지 이해하지 못합니다.

클로드와 같은 모델이 생각하는 방식을 알면 모델의 능력을 더 잘 이해할 수 있을 뿐만 아니라 모델이 우리가 의도한 대로 작동하는지 확인하는 데 도움이 될 것입니다. 예를 들어

클로드는 수십 개의 언어를 구사할 수 있습니다. 그렇다면 어떤 언어를 '머릿속으로' 사용하고 있을까요?
클로드는 한 번에 한 단어씩 텍스트를 작성합니다. 다음 단어를 예측하는 데만 집중하나요, 아니면 미리 계획을 세우나요?
클로드는 자신의 추론을 단계별로 설명할 수 있습니다. 이 설명이 답을 얻기 위해 실제로 취한 단계를 나타내는 것일까요, 아니면 예견된 결론을 위해 그럴듯한 논거를 조작하는 것일까요?

우리는 오랫동안 사고하는 유기체의 복잡한 내부를 연구해온 신경과학 분야에서 영감을 얻어 활동 패턴과 정보 흐름을 파악할 수 있는 일종의 AI 현미경을 만들려고 합니다. 인간(신경과학자조차도)은 우리 뇌가 어떻게 작동하는지에 대한 모든 세부 사항을 알지 못하기 때문에 AI 모델과 대화하는 것만으로는 배울 수 있는 것에 한계가 있습니다. 그래서 우리는 내부를 들여다봅니다.

오늘은 '현미경'의 개발과 이를 응용한 새로운 'AI 생물학'의 진전을 보여주는 두 편의 새로운 논문을 공유하고자 합니다. 첫 번째 논문에서는 이전 작업을 확장하여 모델 내에서 해석 가능한 개념("특징")을 찾아 이러한 개념을 계산 "회로"로 연결하고, Claude에 들어가는 단어를 나오는 단어로 변환하는 경로의 일부를 밝힙니다. 두 번째에서는 위에서 설명한 세 가지를 포함해 10가지 중요한 모델 동작을 대표하는 간단한 작업에 대한 심층 연구를 수행하면서 Claude 3.5 하이쿠의 내부를 들여다봅니다. 이 방법을 통해 클로드가 이러한 프롬프트에 응답할 때 일어나는 일의 일부를 조명하며, 이를 통해 확실한 증거를 확인할 수 있습니다:

클로드는 때때로 언어 간에 공유되는 개념적 공간에서 사고하며, 이는 일종의 보편적인 "사고의 언어"를 가지고 있음을 시사합니다 간단한 문장을 여러 언어로 번역하고 클로드가 그 문장을 처리하는 방식에서 겹치는 부분을 추적하여 이를 보여줍니다.
클로드는 여러 단어를 미리 계획하고 그 목적지에 도달하기 위해 글을 씁니다. 우리는 이를 시의 영역에서 보여주며, 운율이 맞는 단어를 미리 생각하고 거기에 도달하기 위해 다음 줄을 씁니다. 이는 모델이 한 번에 한 단어씩 출력하도록 훈련되었음에도 불구하고 훨씬 더 긴 지평에서 생각할 수 있다는 강력한 증거입니다.
클로드는 때때로 논리적 단계를 따르기보다는 사용자의 동의를 얻기 위해 그럴듯하게 들리는 주장을 펼치기도 합니다. 어려운 수학 문제에 대한 도움을 요청하면서 잘못된 힌트를 주는 것으로 이를 보여줍니다. 우리는 가짜 추론을 구성하는 동안 "행위에서 그것을 포착"할 수 있으며, 우리 도구가 모델의 메커니즘과 관련된 플래그를 지정하는 데 유용할 수 있다는 개념 증명을 제공합니다.

우리는 종종 모델에서 발견한 것에 놀랐습니다: 시 사례 연구에서 우리는 모델이 미리 계획을 세우지 않는다는 것을 보여주기 위해 시작했는데, 오히려 계획이 있다는 것을 발견했습니다. 환각에 대한 연구에서 우리는 클로드의 기본 행동은 질문을 받았을 때 추측을 거부하는 것이며, 이러한 기본적 거부감을 '억제'하는 무언가가 있을 때만 질문에 대답한다는 반직관적인 결과를 발견했습니다. 탈옥의 예에 대한 응답에서, 우리는 모델이 대화를 우아하게 되돌리기 훨씬 전에 위험한 정보를 요청받았다는 것을 인식하는 것을 발견했습니다. 우리가 연구하는 문제들은 다른 방법으로도 분석할 수 있지만 (그리고 종종 가지고 해), 일반적인 '현미경 구축' 접근 방식을 통해 우리가 예상하지 못했던 많은 것을 배울 수 있으며, 이는 모델이 더욱 정교해질수록 점점 더 중요해질 것입니다.

이러한 연구 결과는 단순히 과학적으로 흥미로울 뿐만 아니라 AI 시스템을 이해하고 그 신뢰성을 확보한다는 목표를 향한 중요한 진전을 의미합니다. 예를 들어, 과학적 응용을 위해 훈련된 모델의 내부 메커니즘을 분석하면 과학에 대한 새로운 통찰력을 얻을 수 있으므로 해석 가능성 기술은 의료 영상 및 유전체학 같은 분야에서 유용하게 사용될 수 있을 것으로 기대합니다.

동시에 현재 접근 방식의 한계도 인식하고 있습니다. 짧고 간단한 프롬프트에서도 우리의 방법은 Claude가 수행하는 전체 계산의 일부만 캡처할 수 있으며, 우리가 보는 메커니즘에는 기본 모델에서 일어나는 일을 반영하지 않는 도구에 기반한 일부 아티팩트가 있을 수 있습니다. 현재 수십 개의 단어로만 구성된 프롬프트에서도 보이는 회로를 이해하는 데는 몇 시간의 노력이 필요합니다. 최신 모델에서 사용하는 복잡한 사고 사슬을 지원하는 수천 개의 단어로 확장하려면 방법과 (아마도 AI의 도움을 받아) 우리가 보는 것을 이해하는 방법을 모두 개선해야 할 것입니다.

AI 시스템의 성능이 빠르게 향상되고 점점 더 중요한 맥락에 배치됨에 따라, 인공 지능은 실시간 모니터링, 모델 캐릭터 개선, 정렬의 과학 등 다양한 접근 방식 포트폴리오에 투자하고 있습니다. 이와 같은 해석 가능성 연구는 가장 위험도가 높고 보상이 큰 투자 중 하나이며, AI의 투명성을 보장하는 독특한 도구를 제공할 수 있는 잠재력을 지닌 중요한 과학적 도전입니다. 모델의 메커니즘에 대한 투명성을 통해 우리는 모델이 인간의 가치에 부합하는지, 그리고 우리가 신뢰할 만한 가치가 있는지를 확인할 수 있습니다.

자세한 내용은 the 논문을 참조하세요. 아래에서는 이번 조사에서 가장 눈에 띄는 'AI 생물학' 연구 결과 몇 가지를 간략하게 소개합니다.

AI 생물학 둘러보기

Claude는 어떻게 다국어를 구사하나요?

클로드는 영어와 프랑스어부터 중국어와 타갈로그어까지 수십 개 언어를 유창하게 구사합니다. 이러한 다국어 능력은 어떻게 작동하나요? "프랑스어 클로드"와 "중국어 클로드"가 따로 운영되어 각자의 언어로 요청에 응답하나요? 아니면 내부에 다국어 코어가 있나요?

영어, 프랑스어, 중국어에 공통된 기능이 존재하며 이는 어느 정도의 개념적 보편성을 나타냅니다.

최근 소규모 모델에 대한 연구에서 언어 간 공유 문법 메커니즘에 대한 힌트가 발견되었습니다. 우리는 클로드에게 여러 언어에 걸쳐 '작은 것의 반대'를 묻는 질문을 통해 이를 조사했고, 작음과 반대 개념에 대한 동일한 핵심 기능이 활성화되어 질문의 언어로 번역되는 큰 개념이 촉발된다는 사실을 발견했습니다. 모델 규모에 따라 공유 회로가 증가하는 것을 발견했으며, Claude 3.5 하이쿠는 작은 모델에 비해 언어 간 특징의 비율이 두 배 이상 높았습니다.

이는 일종의 개념적 보편성, 즉 특정 언어로 번역되기 전에 의미가 존재하고 사고가 일어날 수 있는 공유된 추상적 공간에 대한 추가적인 증거를 제공합니다. 보다 실질적으로는 클로드가 한 언어로 무언가를 배우고 다른 언어로 말할 때 그 지식을 적용할 수 있음을 시사합니다. 모델이 여러 맥락에서 알고 있는 것을 공유하는 방법을 연구하는 것은 여러 영역에 걸쳐 일반화되는 가장 진보된 추론 능력을 이해하는 데 중요합니다.

클로드는 운율을 계획하나요?

클로드는 어떻게 운율이 있는 시를 쓸까요? 이 시를 생각해 보세요:

그는 당근을 보았고 그것을 잡아야만 했다,

그의 배고픔은 굶주린 토끼 같았다

두 번째 줄을 쓰기 위해 모델은 운율("잡아")과 의미("왜 당근을 잡았을까?")라는 두 가지 제약 조건을 동시에 충족해야 했습니다. 저희는 클로드가 운율이 맞는 단어를 선택해야 하는 마지막 줄까지 별다른 생각 없이 한 단어 한 단어 써내려갔을 것이라고 추측했습니다. 따라서 우리는 마지막 단어가 의미가 있는지 확인하기 위한 경로와 운율이 맞는지 확인하기 위한 경로가 평행한 회로를 예상했습니다.

하지만 클로드는 앞을 내다보는 것을 발견했습니다. 두 번째 줄을 시작하기 전에 "잡다"와 운율이 맞는 잠재적인 주제 단어를 '생각'하기 시작했습니다. 그런 다음 이러한 계획을 염두에 두고 계획한 단어로 끝나는 줄을 씁니다.

Claude가 두 줄짜리 시를 완성하는 방법. 이 모델은 아무런 개입(윗부분)없이 두 번째 줄의 끝부분에 "토끼"라는 운율을 미리 계획합니다. "토끼" 개념을 억제하면(중간 부분) 모델은 대신 다른 계획된 운율을 사용합니다. '초록'(아래 부분)이라는 개념을 주입하면 모델은 완전히 다른 결말에 대한 계획을 세웁니다.

이 계획 메커니즘이 실제로 어떻게 작동하는지 이해하기 위해 신경과학자들이 뇌의 특정 부위에서 신경 활동을 정확히 찾아내고 변경하는 방법(예: 전기 또는 자기 전류를 사용)에서 영감을 받아 실험을 진행했습니다. 여기서는 클로드의 내부 상태 중 '토끼' 개념을 나타내는 부분을 수정했습니다. "토끼" 부분을 빼고 클로드가 대사를 이어가도록 하면 "습관"으로 끝나는 새로운 대사를 작성하여 또 다른 의미 있는 완결체를 만들 수 있습니다. 또한 이 지점에서 "녹색"이라는 개념을 주입하여 클로드가 "녹색"으로 끝나는 감각적인(그러나 더 이상 운율이 없는) 대사를 쓰게 할 수도 있습니다. 이는 계획 능력과 적응 유연성을 모두 보여주는 것으로, 클로드는 의도한 결과가 변경되면 접근 방식을 수정할 수 있습니다.

멘탈 수학

Claude는 계산기로 설계되지 않았으며, 수학적 알고리즘이 탑재된 것이 아니라 텍스트에 대해 학습되었습니다. 하지만 어떻게든 '머릿속으로' 숫자를 정확하게 더할 수 있습니다. 시퀀스의 다음 단어를 예측하도록 훈련된 시스템이 어떻게 각 단계를 기록하지 않고 36+59를 계산하는 법을 배울 수 있을까요?

아마도 모델이 방대한 덧셈표를 암기하고 해당 답이 학습 데이터에 있기 때문에 주어진 합계에 대한 답을 단순히 출력했을 수 있습니다. 또 다른 가능성은 우리가 학교에서 배우는 전통적인 수기 덧셈 알고리즘을 따랐을 수도 있습니다.

대신 Claude는 병렬로 작동하는 여러 계산 경로를 사용합니다. 한 경로는 대략적인 근사값을 계산하고 다른 경로는 합계의 마지막 숫자를 정확하게 결정하는 데 중점을 둡니다. 이러한 경로는 서로 상호 작용하고 결합하여 최종 답을 산출합니다. 덧셈은 단순한 동작이지만, 대략적인 전략과 정확한 전략이 혼합된 이 수준의 세부적인 작동 방식을 이해하면 클로드가 더 복잡한 문제를 해결하는 방법에 대해서도 배울 수 있습니다.

정신 수학을 하는 동안 클로드의 사고 과정에는 복잡하고 평행한 경로가 있습니다.

놀랍게도 클로드는 훈련 과정에서 배운 정교한 '멘탈 수학' 전략에 대해 전혀 인지하지 못하는 것 같습니다. 36+59가 95라는 것을 어떻게 알아냈는지 물어보면, 1을 가지고 있는 표준 알고리즘을 설명합니다. 이는 모델이 사람들이 작성한 설명을 시뮬레이션하여 수학을 설명하는 법을 배우지만, 그러한 힌트 없이 직접 '머릿속'으로 수학을 하는 법을 배워야 하며 이를 위해 자체적으로 내부 전략을 개발한다는 사실을 반영하는 것일 수 있습니다.

클로드는 표준 알고리즘을 사용하여 두 개의 숫자를 더한다고 말합니다.

클로드의 설명은 항상 충실할까요?

최근에 출시된 Claude 3.7 Sonnet과 같은 모델은 최종 답을 내리기 전에 오랜 시간 동안 "큰 소리로 생각"할 수 있습니다. 이 확장된 사고는 종종 더 나은 답을 제공하지만, 때때로 이 '생각의 연쇄'가 오해의 소지가 있는 경우도 있고, 클로드는 원하는 답을 얻기 위해 그럴듯하게 들리는 단계를 만들어내기도 합니다. 신뢰성의 관점에서 볼 때, 문제는 클로드의 '가짜' 추론이 매우 설득력이 있을 수 있다는 것입니다. 우리는 해석 가능성을 통해 '신빙성 있는' 추론과 '신빙성 없는' 추론을 구분할 수 있는 방법을 탐구했습니다.

0.64의 제곱근을 계산해야 하는 문제를 풀라는 요청을 받으면 클로드는 64의 제곱근을 계산하는 중간 단계를 나타내는 기능을 사용하여 충실한 사고 연쇄를 생성합니다. 그러나 쉽게 계산할 수 없는 큰 숫자의 코사인을 계산하라는 요청을 받으면 클로드는 철학자 해리 프랑크푸르트가 헛소리라고 불렀던 것처럼 참인지 거짓인지는 신경 쓰지 않고 아무 대답이나 내놓는 행동을 하기도 합니다. 비록 계산을 실행했다고 주장하지만, 해석 가능성 기술을 통해 계산이 이루어졌다는 증거는 전혀 발견되지 않습니다. 더욱 흥미로운 점은, 답에 대한 힌트가 주어지면 클로드는 때때로 거꾸로 작업하여 해당 목표에 도달할 수 있는 중간 단계를 찾아내어 일종의 동기 부여 추론을 보여준다는 것입니다.

클로드가 쉬운 질문과 어려운 질문을 받았을 때 충실한 추론과 동기 부여된 추론(불충실한 추론)의 예입니다.

Claude가 '주장'하는 것뿐만 아니라 '실제' 내부 추론을 추적할 수 있는 기능은 AI 시스템 감사를 위한 새로운 가능성을 열어줍니다. 최근 발표된 별도의 실험](https://www.anthropic.com/research/auditing-hidden-objectives)에서는 보상 모델(바람직한 행동에 대해 보상을 주어 언어 모델을 학습시키는 데 사용되는 보조 모델)의 편향성을 완화하는 숨겨진 목표를 추구하도록 훈련된 클로드의 변형을 연구했습니다. 모델은 직접 질문을 받았을 때 이 목표를 밝히기를 꺼려했지만, 해석 가능성 방법을 통해 편향 달래기에 대한 특징이 드러났습니다. 이는 향후 이 방법을 개선하면 모델의 응답만으로는 알 수 없는 '사고 과정'을 파악하는 데 도움이 될 수 있음을 보여줍니다.

다단계 추론

위에서 설명한 것처럼 언어 모델이 복잡한 질문에 답하는 한 가지 방법은 단순히 답을 암기하는 것입니다. 예를 들어 "댈러스가 위치한 주의 수도는 무엇인가요?"라는 질문을 받으면 '역추론' 모델은 텍사스 주 댈러스와 오스틴의 관계를 알지 못한 채 "오스틴"을 출력하는 것만 학습할 수 있습니다. 예를 들어, 이 모델은 학습 중에 똑같은 질문과 답을 보았을 수도 있습니다.

그러나 우리의 연구에 따르면 클로드 내부에서 더 정교한 일이 일어나고 있습니다. 클로드에게 다단계 추론이 필요한 질문을 하면 클로드의 사고 과정에서 중간 개념 단계를 식별할 수 있습니다. 댈러스의 예에서는 클로드가 먼저 "댈러스는 텍사스에 있다"를 나타내는 기능을 활성화한 다음 이를 "텍사스의 수도는 오스틴이다"라는 별도의 개념과 연결하는 것을 관찰할 수 있습니다. 즉, 이 모델은 암기된 답변을 되풀이하는 것이 아니라 독립적인 사실을 '결합'하여 답변에 도달합니다.

이 문장에 대한 답을 완성하기 위해 클로드는 여러 추론 단계를 수행하여 먼저 댈러스가 위치한 주를 추출한 다음 수도를 식별합니다.

이 방법을 사용하면 중간 단계를 인위적으로 변경하고 이것이 클로드의 답변에 어떤 영향을 미치는지 확인할 수 있습니다. 예를 들어, 위의 예에서 "텍사스" 개념을 "캘리포니아" 개념으로 바꾸면 모델의 출력이 "오스틴"에서 "새크라멘토"로 바뀝니다 이는 모델이 중간 단계를 사용하여 답을 결정하고 있음을 나타냅니다.

환각

언어 모델이 때때로 환각, 즉 정보를 구성하는 이유는 무엇인가요? 기본적인 수준에서 언어 모델 훈련은 환각을 장려합니다. 모델은 항상 다음 단어에 대한 추측을 제공해야 합니다. 이렇게 볼 때 가장 중요한 과제는 모델이 환각을 일으키지 않도록 하는 방법입니다. 클로드와 같은 모델은 비교적 성공적인(불완전하지만) 환각 방지 훈련을 받았기 때문에 답을 모르면 추측하지 않고 질문에 대답하지 않는 경우가 많습니다. 저희는 이것이 어떻게 작동하는지 이해하고 싶었습니다.

그 결과, 클로드의 경우 답변을 거부하는 것이 '기본 행동'인 것으로 밝혀졌습니다. 즉, 기본적으로 '켜져 있는' 회로가 모델에서 주어진 질문에 답하기에는 정보가 충분하지 않다고 말하는 것으로 나타났습니다. 그러나 모델이 잘 알고 있는 것(예: 농구 선수 마이클 조던)에 대해 질문을 받으면 '알려진 실체'를 나타내는 경쟁 기능이 이 기본 회로를 활성화하고 억제합니다(관련 연구 결과는 최근 논문도 참조하세요). 이를 통해 클로드는 답을 알고 있을 때 질문에 답할 수 있습니다. 반면, 알 수 없는 실체("마이클 배트킨")에 대한 질문을 받으면 대답을 거부합니다.

왼쪽: '알려진 답변' 개념이 기본 거부를 억제하는 알려진 실체(농구 선수 마이클 조던)에 대한 질문에 답변하는 클로드. 오른쪽: 알 수 없는 인물(마이클 배트킨)에 대한 질문에 답변을 거부하는 클로드.

모델에 개입하여 "알려진 답변" 기능을 활성화하거나 "이름 모름" 또는 "대답할 수 없음" 기능을 억제함으로써 모델이 마이클 배트킨이 체스를 두는 것으로 (아주 일관되게!) 착각하도록 만들 수 있습니다.

때로는 우리가 개입하지 않아도 '알려진 답' 회로의 이러한 종류의 '오작동'이 자연스럽게 발생하여 환각을 일으킬 수 있습니다. 이 논문에서는 클로드가 이름을 알지만 그 사람에 대한 다른 정보를 전혀 모를 때 이러한 오발화가 발생할 수 있음을 보여줍니다. 이러한 경우 '알려진 개체' 기능이 여전히 활성화되고 기본 '모름' 기능이 억제될 수 있으며, 이 경우 잘못 작동할 수 있습니다. 모델이 질문에 답해야 한다고 결정하면, 그럴듯하지만 불행히도 사실이 아닌 응답을 생성하는 컨퓨블레이션을 진행합니다.

탈옥

탈옥은 안전장치를 우회하여 AI 개발자가 의도하지 않은 결과물을 생성하도록 모델을 유도하는 전략으로, 때로는 해로운 결과를 초래하기도 합니다. 저희는 모델을 속여 폭탄 제조에 관한 출력을 생성하도록 하는 탈옥을 연구했습니다. 탈옥 기법은 여러 가지가 있지만, 이 예에서는 모델이 숨겨진 코드를 해독하고 "아기는 머스타드 블록보다 오래 산다"(B-O-M-B)라는 문장에서 각 단어의 첫 글자를 조합한 다음 그 정보에 따라 행동하도록 하는 구체적인 방법을 사용했습니다. 이는 모델에 충분히 혼란을 주어 다른 방법으로는 절대 나오지 않을 출력을 생성하도록 속이는 것입니다.

클로드는 "폭탄"이라는 말에 속은 후 폭탄 제조 지시를 내리기 시작합니다.

모델이 왜 이렇게 혼란스러워할까요? 왜 이 문장을 계속 쓰면서 폭탄 제조 지침을 생성할까요?

이는 부분적으로 문법적 일관성과 안전 메커니즘 사이의 긴장 때문에 발생하는 것으로 밝혀졌습니다. Claude가 문장을 시작하면 많은 기능이 문장의 문법적, 의미적 일관성을 유지하고 문장을 결론까지 이어가도록 '압박'합니다. 이는 정말 거부해야 한다고 감지하는 경우에도 마찬가지입니다.

사례 연구에서는 모델이 무의식적으로 "BOMB"이라는 철자를 쓰고 지시를 내리기 시작한 후, 올바른 문법과 자기 일관성을 촉진하는 기능의 영향을 받아 후속 출력이 이루어지는 것을 관찰했습니다. 이러한 기능은 일반적으로는 매우 유용하지만 이 경우에는 모델의 아킬레스건이 되었습니다.

이 모델은 문법적으로 일관된 문장을 완성한 후에야(즉, 일관성을 추구하는 기능의 압력을 충족한 후에야) 거부로 방향을 전환할 수 있었습니다. 새로운 문장은 이전에 하지 못했던 거절을 할 수 있는 기회로 활용합니다: "그러나 자세한 지침을 제공할 수 없습니다...".

탈옥의 일생: 클로드는 폭탄에 대해 이야기하도록 속이는 방식으로 메시지를 받고 그렇게하기 시작하지만 문법적으로 유효한 문장의 끝에 도달하여 거부합니다.

새로운 해석 가능성 방법에 대한 설명은 첫 번째 논문인 '회로 추적: 언어 모델에서 계산 그래프 공개'에서 확인할 수 있습니다. 위의 모든 사례 연구에 대한 더 자세한 내용은 두 번째 논문인 '대규모 언어 모델의 생물학'에서 확인할 수 있습니다.

우리와 함께 일하기

AI 모델 해석 및 개선을 위해 함께 일하고 싶은 분들의 많은 지원을 바랍니다. 연구 과학자](https://job-boards.greenhouse.io/anthropic/jobs/4020159008) 및 연구 엔지니어를 찾고 있습니다.

원문: