비둘기의 강화 학습, AI 혁명을 이끌다

비둘기는 지능적인 동물로 인정받은 적이 거의 없다. 그러나 오늘날 최첨단의 AI 시스템을 움직이는 ‘강화 학습’은 인간보다 비둘기의 학습 방식에 훨씬 더 가깝다.

1943년 세계 최고의 물리학자들이 맨해튼 프로젝트에 매달려 원자를 쪼개던 시기, 미국의 심리학자 버러스 프레더릭 스키너(B.F. Skinner)는 또 다른 정부 비밀 프로젝트를 통해 전쟁의 판도를 바꾸려 했다. 그의 목표는 더 크고 파괴적인 무기를 만드는 것이 아니라 기존 폭탄을 더 정밀하게 만드는 방법을 찾는 것이었다.

그는 학회에 참석하기 위해 기차에 오르던 길에 이 방법을 찾아냈다. 스키너는 “기차 옆을 따라 무리를 지어 날며 선회하는 새들을 보았다”며 “순간 그들이 시력이 뛰어나고 기동성이 좋은 ‘장치’로 보였고, 이 원리를 이용하면 미사일을 유도할 수 있지 않을까 하는 생각이 들었다”고 회상했다.

스키너는 처음에 까마귀를 이용해 실험을 시작했지만 지나치게 영리한 까마귀로는 훈련이 쉽지 않았다. 그는 곧 중국 식당에 비둘기를 납품하는 가게로 발길을 돌렸고, 이른바 ‘비둘기 프로젝트(Project Pigeon)’가 탄생했다. 그가 선택한 바위 비둘기(Columba livia)는 특별히 지능적인 동물은 아니었지만 실험실에서는 놀라울 정도로 협조적인 피실험자였다. 스키너는 비둘기들이 항공 사진 속에서 올바른 목표를 쪼았을 때 먹이를 주며 보상했다. 그는 더 나아가 비둘기들을 탄두 앞부분에 장착된 장치에 넣어 렌즈를 통해 화면에 비춰지는 실제 목표 영상을 쪼며 목표물을 조종하게 만들 계획까지 세웠다.

군은 스키너의 이 ‘가미카제 비둘기’를 실전에 투입하지 않았지만 그의 실험은 비둘기가 기초적인 학습 과정을 탐구하는 데 ‘극도로 신뢰할 만한 도구’라는 확신을 심어주었다. 스키너는 1944년 “비둘기를 선택한 것은 지능적이어서가 아니라 실용적이며 기계처럼 훈련시킬 수 있기 때문”이라고 설명했다.

인공지능(AI)의 기원을 이야기할 때 많은 이들은 아이작 아시모프(Isaac Asimov)의 공상과학 소설을 먼저 떠올린다. 이시모프는 1950년 출간한《나는 로봇(I, Robot)》에서 ‘로봇 3원칙’을 제시하며 인간과 기계의 공존 문제를 본격적으로 상상 속에 끌어들였다. 이는 훗날 로봇공학과 AI 윤리 논의의 중요한 출발점이 된다. 또 다른 기원으로는 영국의 수학자 앨런 튜링(Alan Turing)이 제안한 튜링 테스트(Turing Test)가 자주 언급된다. 튜링은 “기계가 생각할 수 있는가?”라는 질문에 답하기 위해 인간과 기계가 대화만으로 구별되지 않을 경우, 그 기계를 지능적이라 간주할 수 있다는 사상 실험을 제안했다. 이는 AI가 지능을 가졌는지를 가늠하는 고전적 기준으로 자리 잡았다.

그러나 20세기 중반 비둘기를 활용한 스키너의 연구 역시 놀랍지만 상대적으로 덜 알려진 중요한 AI의 출발점이다. 스키너는 자극과 반응의 ‘연합(association)’, 즉 시행착오를 거치면서 어떤 행동과 그에 따른 처벌이나 보상을 연결해 학습하는 과정이 모든 행동의 기본 단위라고 믿었다. 이는 비둘기 같은 동물뿐 아니라 인간을 포함한 모든 생명체에게 적용되는 원리라고 생각한 것이다.

그의 ‘행동주의’ 이론은 1960년대 이후 심리학과 동물 연구 분야에서 입지를 잃었지만, 컴퓨터 과학자들은 이 시행착오 학습 원리에서 영감을 얻어 오늘날 구글과 오픈AI 같은 기업이 활용하는 강화 학습(Reinforcement Learning) 기반 AI 기술을 발전시켰다. 이 분야를 개척한 리처드 서튼(Richard Sutton)과 앤드루 바르토(Andrew Barto)는 2024년 ‘컴퓨터 과학계의 노벨상’으로 불리는 튜링상을 수상했다.

‘강화 학습’은 컴퓨터가 자동차를 운전하고 복잡한 수학 문제를 풀며, 체스와 바둑 같은 게임에서 세계 챔피언을 꺾을 수 있도록 만들었다. 그러나 이는 인간의 복잡한 사고 과정을 모방한 결과가 아니다. 오히려 단순한 비둘기의 연합 학습 과정을 비약적으로 확장한 데 따른 성과였다. 서튼은 “70년간의 AI 연구가 보여준 ‘씁쓸한 교훈’은 인간의 지능이 기계학습의 모델이 아니라는 사실”이라며 “오늘날 인간을 모방하거나 능가하는 알고리즘을 움직이는 힘은 단순한 연합 학습의 원리”라고 설명했다.

만약 많은 이들의 두려움대로 AI가 창조자의 손아귀를 벗어난다면 미래의 지배자가 된 컴퓨터는 인간과 닮았다기보다 날개 달린 쥐에 행성 크기의 두뇌를 가진 존재처럼 상상해야 할지도 모른다. 그렇지 않더라도 비둘기 두뇌는 AI가 점점 인간처럼 변모한다는 두려움과 기대를 이해하는 데 도움을 준다.

최근 AI가 이룬 성과는 자연지능의 진화를 다시 생각하게 만들고 있다. 스톡홀름대학교의 생물학자 요한 린드(Johan Lind)는 ‘연합 학습의 역설’을 제기했다. 그는 생물학자들이 연합 학습을 동물의 복잡한 행동을 설명하기에 지나치게 단순하다며 무시하는 반면, 컴퓨터가 인간과 유사한 행동을 보이는 데에는 찬사를 보낸다는 점에서 모순이 있다고 지적했다. 이러한 연구는 침팬지나 까마귀처럼 지능적인 동물뿐 아니라 그동안 단순한 존재로 치부된 바위 비둘기의 삶에서도 연합 학습이 훨씬 더 중요한 역할을 하고 있음을 보여준다.

서튼은 AI 연구를 시작할 당시 자신에게 ‘비밀 병기’가 있다고 느꼈다. 학부 시절 심리학을 전공한 덕분이었다. 그는 “나는 동물 연구와 관련된 심리학 문헌을 캐내고 있었다”고 설명했다.

스키너는 처음에는 까마귀로 미사일 연구를 시작했으나, 지나치게 영리해 훈련에 쉽게 길들여지지 않자 비둘기로 바꿔 실험을 진행했다. B.F. SKINNER FOUNDATION

연합 학습의 메커니즘은 19세기 말 러시아 생리학자 이반 파블로프(Ivan Pavlov)가 개의 침 분비 실험을 통해 처음 밝혀냈다. 그는 종이나 빛 같은 중립 자극을 먹이와 반복적으로 함께 제시하면, 개가 조건 자극만으로도 침을 흘리는 ‘고전적 조건 형성(classical conditioning)’ 현상을 발견했다.

20세기 중반에 이르러 스키너는 파블로프의 조건 형성 원리를 반사적 반응에서 더 나아가 동물의 전체 행동으로 확장했다. 그는 “행동은 그 결과에 의해 형성되고 유지된다”고 말했다. 레버를 눌렀을 때 먹이가 나오면 그 행동이 강화되고, 동물은 같은 행동을 반복한다는 것이다.

스키너는 실험동물의 행동을 단계적으로 강화해 쥐에게는 구슬을 굴리도록 하고, 비둘기에게는 건반 네 개가 달린 작은 피아노로 단순한 곡을 연주하도록 훈련시켰다. 동물들은 장기적인 보상을 극대화하기 위해 시행착오를 거쳐 행동의 사슬을 익혔다. 스키너는 이러한 연합 학습, 즉 자신이 ‘조작적 조건 형성(operant conditioning)’이라 부른 과정이 모든 행동의 기본 단위라고 주장했다. 그는 심리학이 마음속의 ‘내적 주체’를 가정하기보다, 관찰하고 측정할 수 있는 행동 자체만을 연구해야 한다고 믿었다.

서튼은 AI 연구를 시작할 당시 자신에게 ‘비밀 병기’가 있다고 느꼈다. 학부 시절 심리학을 전공한 덕분이었다. 그는 “나는 동물 연구와 관련된 심리학 문헌을 캐내고 있었다”고 설명했다.

스키너는 인간의 언어조차 조작적 조건 형성을 통해 발달한다고 보았다. 아이들이 강화 과정을 거치며 단어의 의미를 배운다는 것이다. 그러나 그는 1957년 출간한 저서 《언어적 행동(Verbal Behavior)》에서 이 주장을 폈다가 미국의 언어학자이자 철학자인 노암 촘스키(Noam Chomsky)의 혹독한 비판을 받았다.

그 후 심리학의 초점은 관찰 가능한 행동에서 인간 마음속에 내재된 논리와 상징적 사고 같은 ‘인지’ 능력으로 옮겨갔다. 생물학자들 또한 행동주의에 반기를 들었다. 동물 행동의 다양성을 단일하고 보편적인 메커니즘으로 설명하려는 심리학자들을 비판하며, 각 종은 서식지와 생활 방식에 맞춰 특화된 행동을 진화시키고 대부분의 행동은 학습이 아니라 유전된 것이라고 주장했다.

1970년대에 들어서 서튼이 스키너의 연구와 유사한 실험들을 읽기 시작했을 때, 많은 심리학자와 지능 연구자들은 단순한 연합 학습으로 움직이는 ‘콩알만 한 두뇌’를 가진 비둘기 대신, 더 큰 뇌와 정교한 행동으로 잠재적 인지 능력을 보여주는 동물들에 주목하고 있었다. 서튼은 “당시에는 이미 오래된 주제로 사람들의 흥미를 끌지 못하는 연구였다”고 회상했다. 그럼에도 그는 이 오래된 실험들이 기계학습에 중요한 통찰을 준다고 보았다. 그는 “나는 동물 학습 이론가의 시각으로 AI를 바라보고 있었고, 공학 분야에는 도구적 학습 같은 개념이 거의 없다는 사실을 발견했다”고 설명했다.

20세기 후반에 접어들며 많은 공학자는 인간의 지능을 본떠 AI를 설계하려 했다. 인간의 사고 과정을 흉내 내고 반응과 행동을 지배하는 규칙을 구현하기 위해 복잡한 프로그램을 짰다. 이른바 ‘상징적 AI(symbolic AI)’라 불린 이 접근법은 곧 한계에 부딪혔다. 기계는 사물을 인식하거나 단어를 알아보는 등 인간에게는 너무나 쉬운 과제조차 제대로 처리하지 못했다. 사과와 오렌지, 고양이와 개를 구분하기 위해 인간이 사용하는 수많은 분류 규칙을 코드로 옮기는 것은 사실상 불가능했기 때문이다. 패턴 인식이 되지 않으니 문제 해결, 게임, 언어 번역처럼 더 복잡한 분야에서도 성과를 내기 어려웠다.

AI 회의론자 휴버트 드레이퍼스(Hubert Dreyfus)는 1972년 “이는 특정 문제를 임시방편적으로 해결한 작은 공학적 성취일 뿐 일반적으로 적용할 수 없는 결과”라고 비판했다.

그러나 비둘기 연구는 또 다른 가능성을 열었다. 1964년 진행된 한 실험은 비둘기가 사람이 있는 사진과 없는 사진을 구분할 수 있다는 사실을 입증했다. 연구자들은 단순히 여러 장의 사진을 보여주고, 사람의 모습이 담긴 사진을 쪼면 먹이를 보상으로 주었다. 비둘기는 처음에는 무작위로 쪼았지만 곧 정확하게 구분하기 시작했다. 심지어 인물이 부분적으로 가려진 사진도 올바르게 식별해 냈다. 이는 별도의 규칙을 주입하지 않아도 연합 학습만으로 개념과 범주를 습득할 수 있음을 보여주는 결과였다.

A pigeon standing with its head facing a tiny window. There are labels inset in the wall that read, "Yellow," "Blue," "Red," and "Green" — 스키너의 또 다른 실험에서 비둘기는 불빛의 색깔과 일치하는 패널을 맞추면 보상으로 먹이를 받았다. GETTY IMAGES

서튼은 1970년대 후반 바르토와 함께 AI 연구를 시작하며 비둘기나 쥐처럼 환경을 탐색하고 그 결과에 따라 행동을 조정할 수 있는 ‘완전하고 상호적인 목표 지향 에이전트’를 구상했다. 바르토는 “우리가 연구하는 문제는 진화 과정에서 동물들이 생존을 위해 직면했던 문제와 더 가까웠다”고 설명했다.

이러한 에이전트에 필요한 핵심 능력은 두 가지였다. 여러 행동을 시도하고 선택하며 ‘탐색’하고 그 결과가 어떤 보상으로 이어졌는지를 ‘기억’하는 능력이었다. 서튼과 바르토는 이를 ‘강화 학습’이라 불렀고, 서튼은 ‘본질적으로 도구적 학습(instrumental learning)’이라고도 칭했다. 두 사람은 1998년 《강화 학습: 입문(Reinforcement Learning: An Introduction)》을 출간해 이 개념을 체계화했다.

이후 20여 년간 컴퓨팅 성능이 비약적으로 향상되면서 AI는 이전보다 훨씬 복잡한 과제에 훈련될 수 있게 됐다. 다시 말해 AI라는 ‘비둘기’를 수백만 번 더 많은 시행착오에 노출시킬 수 있는 환경이 갖춰진 것이다. 인간의 입력(input)과 강화 학습을 결합한 프로그램들은 체스와 아타리 게임(1970~80년대 초반에 인기 있던 비디오 게임 회사 이름이자, 그 회사에서 만든 게임 콘솔)에서 인간 전문가를 넘어섰다. 이어 2017년 구글 딥마인드(DeepMind) 연구진은 바둑 프로그램 알파고 제로(AlphaGo Zero)를 순수 강화 학습만으로 훈련시켰다. 매 판마다 승리에는 +1, 패배에는 -1이라는 단순한 보상을 부여하자 프로그램은 보상을 극대화하기 위해 스스로 전략을 익혔다. 아무런 기초 지식 없이 시작한 알파고 제로는 불과 40일 만에 ‘초인적 성능’에 도달했다. 단순히 세계 최고 바둑기사를 꺾는 수준을 넘어, 오늘날 프로 기사들이 여전히 참고하는 새로운 전략을 창안하기도 했다.

연구진은 2017년 <네이처> 논문에서 “인류는 수천 년 동안 수백만 판의 바둑을 통해 지식을 축적해 왔다”며 “알파고 제로는 단 며칠 만에 백지상태에서 그 지식의 상당 부분을 재발견했을 뿐 아니라, 바둑이라는 가장 오래된 게임에 새로운 통찰을 제시했다”고 설명했다. 연구팀을 이끈 인물은 서튼의 제자로 앨버타대학교에서 강화 학습을 연구한 데이비드 실버(David Silver)였다.

오늘날에는 점점 더 많은 기술 기업이 챗봇이나 에이전트 개발에 강화 학습을 도입하고 있다. 초기의 생성형 AI, 즉 오픈AI의 GPT-2와 GPT-3 같은 대형언어모델(LLM)은 사람이 라벨링한 데이터세트로 학습하는 ‘지도 학습(supervised learning)’에 기반했다. 그러나 이후 연구자들은 사람들에게 모델의 출력을 평가하게 하고, 그 결과를 다시 학습 목표로 삼는 방식을 적용했다. 이른바 ‘인간 피드백 기반 강화 학습(Reinforcement Learning from Feedback)’이다.

지난해 가을 오픈AI는 ‘추론(reasoning) 모델’로 분류한 ‘o-시리즈’ LLM을 공개했다. 오픈AI는 이 모델이 “강화 학습을 통해 훈련돼 추론을 수행할 수 있으며 내부적으로 긴 사고 과정을 거친다”고 강조했다. 중국 스타트업 딥시크(DeepSeek) 역시 강화 학습으로 훈련한 추론 모델 ‘R1’을 선보이며 큰 주목을 받았다. 딥시크는 “모델이 문제 해결 방법을 직접 학습하도록 가르치는 대신 적절한 보상을 부여해 스스로 고도화된 전략을 발전시키도록 했다”고 설명했다.

이 같은 설명은 사용자들에게 매력적으로 들릴 수 있지만 심리학적 관점에서 보면 다소 혼란스럽다. 강화 학습으로 훈련된 컴퓨터에는 보상을 극대화하기 위한 탐색과 기억 능력만 있으면 충분하지, 실제 추론이나 다른 고차원적 인지 메커니즘은 필요하지 않기 때문이다. 일부 컴퓨터 과학자들은 이런 모델의 ‘사고 과정’을 의인화하는 경향을 비판해 왔다. 최근 애플 엔지니어 팀도 논문에서 해당 모델이 특정 복잡한 과제를 해결하지 못한 사례를 지적하며 “실제 추론 능력이 있는지 의문”이라고 밝혔다.

서튼 역시 이메일 답변에서 ‘추론 모델’이라는 주장은 마케팅적 표현일 뿐이라고 일축했다. 그는 “정신 연구에 진지하게 임하는 학자라면 LLM의 작동을 추론이라 부르지 않을 것”이라고 지적했다. 그럼에도 그는 제자 실버와 함께 쓴 논문에서 “시행착오를 통해 보상을 학습하는 비둘기의 방식만으로도 인간 언어를 포함해 자연지능과 인공지능에서 연구되는 대부분의 능력을 설명할 수 있다”고 주장했다.

서튼과 실버는 올해 4월 발표한 논문에서 “오늘날의 기술은 적절한 알고리즘만 갖춰진다면 AI를 진정한 초인적 에이전트로 발전시킬 충분한 토대를 이미 제공하고 있다”며 “핵심은 인간의 대화와 선입견에 크게 의존하지 않는 AI 에이전트를 구축하는 데 있다”고 밝혔다. 두 연구자는 또 “강력한 에이전트는 인간처럼 장기간에 걸쳐 경험을 축적해야 한다”며 “결국 경험적 데이터는 인간이 생성한 데이터의 규모와 품질을 뛰어넘게 될 것이고, 이러한 패러다임 전환은 강화 학습의 진보와 맞물려 다양한 분야에서 인간을 능가하는 새로운 능력을 열어줄 것”이라고 강조했다.

이렇게 단순히 ‘비둘기 같은 뇌’로 이런 성과를 낼 수 있다면, 비둘기 자체도 과소평가된 것은 아닐까. 아이오와대학교 심리학자 에드 와서먼(Ed Wasserman)은 최근 학술지 <커런트 바이올로지(Current Biology)>에 발표한 논문에서 “AI의 성과에 비춰볼 때 연합 학습이 더 복잡한 인지 수행으로 확장될 수 있다는 사실은 생물학적 시스템이 어떻게 진화했는지를 이해하는 데 새로운 가능성을 제시한다”고 썼다.

와서먼은 한 실험에서 학부생들이 끝내 풀지 못한 복잡한 분류 과제를 비둘기들에게 성공적으로 학습시킨 바 있다. 학생들은 다양한 원반을 분류하기 위해 규칙을 찾으려 한 반면, 비둘기들은 각 원반이 어느 집단에 속하는지를 직관적으로 파악해 냈다.

와서먼은 한 실험에서 학부생들이 끝내 풀지 못한 복잡한 분류 과제를 비둘기들에게 성공적으로 학습시켰다. 학생들은 다양한 두께와 기울기의 검은 평행선이 그려진 원반을 분류하기 위해 규칙을 찾으려 했으나 실패했다. 그러나 비둘기들은 단순한 반복 훈련과 연합 학습만으로 각 원반이 어느 집단에 속하는지를 직관적으로 파악해 냈다.

스키너 이론이 한물간 시기에도 와서먼은 서튼처럼 행동주의 심리학에 관심을 가졌다. 다만 컴퓨터 과학으로 방향을 바꾸지 않고 줄곧 비둘기를 연구 대상으로 삼았다. 그는 최근 인터뷰에서 “비둘기는 아주 기초적인 학습 규칙으로 살아가지만 그 규칙은 사물 인식에서 엄청난 성공을 거둘 만큼 강력하다”고 말했다. 그의 대표적 연구 중 하나는 비둘기가 의료 영상을 판별하는 실험으로, 암 조직이나 심장 질환의 징후를 숙련된 의사만큼 정확하게 구분하는 결과를 보여주기도 했다.

그럼에도 와서먼은 “많은 심리학자와 동물행동학자들이 여전히 연합 학습을 지나치게 단순하고 기계적인 메커니즘으로 치부한다”고 지적했다. 특히 유인원, 코끼리, 돌고래, 앵무새, 까마귀처럼 ‘영리한 동물’의 지능을 설명하기에는 부족하다고 여기는 시각에 의문을 제기했다. 하지만 AI가 복잡한 게임에서 인간 전문가를 능가하기 시작하면서 다른 연구자들도 동물 행동에서 연합 학습의 의미를 재평가하기 시작했다.

린드는 2023년 발표에서 “본질적으로 연합 학습을 기반으로 만들어진 AI가 눈부시게 발전하는 것을 보면서 연합 학습이 생물학적 지능을 설명하기에는 너무 단순하다는 주장이 점점 더 아이러니하게 느껴진다”고 말했다. 그는 자신의 생물학 연구에서 서튼과 바르토의 성과를 자주 인용하며 “인간을 다른 동물과 구분하는 것은 상징적 언어와 누적된 문화”라고 강조했다.

동물행동학자들은 일반적으로 사회적 학습이나 도구 사용 같은 놀라운 행동을 설명하기 위해 ‘마음 이론(타인의 정신 상태를 추론하는 능력)’과 같은 복잡한 인지 메커니즘을 가정한다. 그러나 린드는 이러한 행동이 연합 학습을 통해서도 발달할 수 있음을 보여주는 모델을 제시했다. 동물이 특정 행동을 보상과 연관 짓게 되면 그 행동 자체가 보상의 가치를 띠고, 이후 새로운 행동이 그 첫 행동과 연결되면서 결국 보상으로 이어지는 일련의 행동 사슬을 형성할 수 있다는 것이다. 그의 시각에서 보면 침팬지나 큰까마귀의 자기통제와 계획 능력을 보여주는 연구 역시 선천적 정신 능력의 증거라기보다는 경험을 통해 습득된 행동일 가능성이 크다.

린드는 동물 인지 연구가 낮은 기준에 안주하고 있다는 점에 늘 좌절감을 토로해왔다. 그는 이메일에서 “이 분야의 많은 연구자들이 대안 가설을 배제하는 데는 관심을 두지 않으며, 현재와 과거의 풍부한 지식을 외면한 채 만족하는 듯하다”고 지적했다.

그러나 그의 주장이 점차 힘을 얻고 있다는 신호도 있다. 지난해 린드와 무관한 한 심리학자 단체는 학술지 <커런트 바이올로지>에 실린 까마귀 연구를 비판하며 ‘연합 학습 역설’을 언급했다. 해당 연구는 “까마귀가 단순한 연합 학습을 넘어 ‘진정한 통계적 추론’을 한다”고 주장했다. 이 심리학자들은 “강화 학습 모델만으로도 까마귀의 수행을 충분히 설명할 수 있다”며 “이는 연구진이 배제했던 저차원의 연합 학습 과정과 정확히 일치한다”고 반박했다.

이런 논쟁은 스키너에게 일종의 재평가처럼 느껴졌을지도 모른다. 그는 1990년 세상을 떠날 때까지 심리학이 인지 중심으로 기울어지는 흐름을 안타까워하며, ‘살아 있는 존재의 마음’을 탐구하는 것은 과학적으로 무책임하다고 주장했다. ‘비둘기 프로젝트’ 이후에는 사회 문제 해결을 위한 행동주의적 해법에 몰두했다. 전쟁을 위해 비둘기를 훈련했던 그는 유리 온도 조절 상자에 아기를 두어 옷과 침구 없이 양육을 단순화하는 ‘에어 크립(Air Crib)’을 발명하기도 했다. 자유의지를 부정하며 인간 행동은 환경적 변수에 의해 결정된다고 본 그는 자신의 사상을 토대로 유토피아 공동체를 묘사한 소설 《월든 II》를 집필하기도 했다.

동물을 아끼는 이들에게 행동주의 이론의 부활은 다소 불편하게 다가올 수 있다. ‘인지 혁명’은 오랫동안 인간을 동물 위에 두고 다른 생명을 단순한 자극-반응 기계로 취급해 온 서구적 사고와 결별하는 흐름이었기 때문이다. 그러나 동물이 연합을 통해 학습한다는 주장은 그들이 단순한 존재라는 뜻은 아니다. 린드와 와서먼 같은 학자들은 본능이나 감정 같은 내적 요인도 동물 행동에 영향을 미친다는 점을 부정하지 않는다. 서튼 역시 동물이 경험을 통해 세계의 모형을 구축하고 이를 토대로 행동을 계획한다고 본다. 이들의 주장은 지능적인 동물이 ‘빈 껍데기’라는 것이 아니라, 연합 학습 자체가 동료 학자들이 생각하는 것보다 훨씬 더 강력한 인지 메커니즘이라는 것이다. 최근 까마귀 연구를 비판한 심리학자들도 지능을 낮게 평가한 것은 아니었다. 그들은 “강화 학습 모델만으로도 복잡하고 유연한 행동을 충분히 산출할 수 있다”고 강조했다.

이러한 시각은 1970~80년대 와서먼과 서튼에게 큰 영향을 준 심리학자 로버트 레스콜라(Robert Rescorla)의 연구와도 맞닿아 있다. 레스콜라는 “연합은 저차원의 기계적 과정이 아니라, 환경 속 사건들의 관계에 노출되며 형성되는 학습이자 유기체가 세계의 구조를 표상하는 주요 수단으로 보아야 한다”고 강조했다.

그의 지적은 작은 실험실 상자 속 비둘기에게도 적용된다. 비둘기는 화면과 버튼을 쪼며 자극과 보상이 철저히 통제되는 환경에서 학습하지만, 그 학습은 상자 밖에서도 이어진다. 와서먼의 제자들은 비둘기를 사육장과 실험실 사이에서 양동이에 담아 옮기는데, 경험 많은 비둘기들은 문이 열리자마자 스스로 양동이에 뛰어든다. 이는 레스콜라의 말처럼 비둘기가 실험실 세계의 구조, 즉 양동이와 상자의 관계를 학습하고 있음을 보여준다. 구체적으로 어떤 과제가 주어질지는 알지 못하더라도 말이다.

비교 심리학자와 동물 연구자들은 오래전부터 ‘다른 생명체의 감각 능력을 어떻게 인정할 것인가’라는 문제와 씨름해왔다.

이처럼 비둘기가 세계의 구조를 학습하는 연합 메커니즘은 스키너와 초기 심리학자들이 부정했던 내적 삶의 단서를 보여준다. 실제로 제약 연구자들은 오래전부터 비둘기를 약물 판별 실험에 활용해 왔다. 중추신경 자극제인 암페타민(amphetamine)이나 진정제를 투여한 뒤 어떤 약을 먹었는지 맞히면 먹이로 보상하는 방식인데, 비둘기가 이를 정확히 구분한다는 사실은 그들이 내적 상태를 인식하고 판단할 수 있다는 점을 시사한다. 와서먼은 이를 두고 “자기 성찰과 같은 걸 하는 게 아니냐”고 되물었다.

이 특정 과제에서 AI가 비둘기를 따라잡기는 쉽지 않아 보인다. 이는 AI와 동물이 연합 메커니즘을 공유하더라도 삶이 단순한 행동과 학습을 넘어선다는 사실을 일깨운다. 비둘기는 학습 방식 때문이 아니라 고통을 느낄 수 있는 살아 있는 존재이기에 윤리적 고려가 필요하다. 반면 AI 챗봇은 아무리 방대한 데이터세트에 인간의 고통과 감정, 혹은 SF 속 의인화된 컴퓨터에 대한 이야기가 담겨 있더라도 결코 고통을 경험하지는 못한다.

심리학자 에드 와서먼은 비둘기를 훈련시켜 의료 영상에서 암 조직과 심장 질환의 징후를 숙련된 의사만큼 정확히 판별하도록 만들었다. UNIVERSITY OF IOWA/WASSERMAN LAB

두 명의 과학 철학자는 2023년 <이온(Aeon)> 기고문에서 “최근 몇 년간 공공과 민간이 집중 투자한 AI 연구가 오늘날 우리가 AI의 감각 능력 문제와 맞닥뜨리게 만들었다”며 “이 질문에 답하려면 동물 인지와 행동 연구에도 같은 수준의 투자가 필요하다”고 강조했다. 실제로 비교 심리학자와 동물 연구자들은 오래전부터 ‘다른 생명체의 감각 능력을 어떻게 인정할 것인가,’ ‘진짜 감각과 그럴듯한 모방을 어떻게 구분할 것인가’라는 문제와 씨름해 왔다.

이런 연구는 기술과 동물만이 아니라 인간을 이해하는 데에도 깊은 통찰을 준다. 대부분의 심리학자는 인간 행동을 보상만으로 설명할 수 있다고 본 서튼만큼 과감하지는 않지만, 사람들이 연합을 통해 학습한다는 점에는 대체로 동의한다. 실제로 와서먼의 줄무늬 원반 실험에서 학부생들 대부분은 규칙을 찾으려는 시도를 포기한 뒤에야 과제를 해낼 수 있었다. 그들은 비둘기처럼 연합에 의존한 끝에 각 범주를 구분하는 감각을 익혔다. 다만 자신들이 무엇을 학습했는지는 명확히 설명하지 못했다.

여기에도 연합 학습의 아이러니가 숨어 있다. 인간을 인간답게 만드는 요소로 꼽히는 규칙 기반 학습조차 색깔이나 크기 같은 단순한 분류 과제에 쓰이며, 소믈리에가 포도 품종의 미묘한 차이를 구분하는 능력 같은 가장 정교한 학습 사례조차 규칙이 아니라 경험을 통해 이뤄진다.

결국 경험을 통한 학습은 인간만의 것이 아니다. 이는 비둘기와 꿀벌, 물고기를 비롯해 무수한 생명체가 공유하는 오래된 연합 메커니즘에 뿌리를 두고 있다. 실험실 속 비둘기는 단지 컴퓨터 안에서 작동하는 모델이 아니라 우리의 뇌 속에도 존재하며, 인류가 거둔 가장 인상적인 성취 뒤에서 보이지 않게 움직이는 동력이기도 하다.

이 글을 쓴 벤 크레어(Ben Crair)는 베를린을 기반으로 활동하는 과학·여행 전문 작가다.

The post 비둘기의 강화 학습, AI 혁명을 이끌다 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.