[칼럼] 우리는 AI의 실수를 얼마나 잡아낼 수 있나

대형언어모델은 오류가 있어도 망설이지 않는다. 틀린 답을 유창하게 내놓는 기술 앞에서, 우리의 검증 감각은 아직 준비가 필요한 상황이다.

하루는 한국의 김이 해외로 인기리에 수출된다는 소식을 들었다. 그래서 나는 전국의 시도별로 김 생산량이 얼마나 될 지 정리해 보고 싶어졌다. 한국 지도 모양의 그림을 만든 뒤에 시도별로 김이 많이 생산되는 곳일 수록 짙은 색깔을 칠하는 방식으로 그림을 만들면 좋겠다고 생각했다.

별 일 아닌 것 같지만 생각해 보면 의외로 손이 갈 곳이 꽤 있는 작업이다. 일단 시도별 연간 김 생산량을 정리해 놓은 믿을 만한 자료를 검색해서 찾아야 한다. 그리고 그 숫자에 따라 어떤 색깔로 칠을 할 지 정해야 한다. 대단히 복잡한 이론이 필요한 작업이라고 할 수는 없지만 그림판 정도의 간단한 프로그램 으로 해결하려면 어떤 숫자를 어느 정도 짙은 색깔로 만들어야 하는 지 계산 방법을 정하고 그 계산 결과에 따라 숫자를 입력해 색깔을 만드는 작업을 일일히 해야 한다. 이런 작업을 전에 해 본 적이 없고 마땅한 별도의 프로그램을 갖고 있지 않다면 한국 지도에 색칠을 한다는 것 자체도 귀찮은 일일 수 있다. 우선 아무 색깔도 없이 시도의 경계 만을 선으로 그려 놓은 커다란 한국 지도 그림을 어디에서인가 구해와야 한다. 그리고 거기에 하나 하나 색깔을 바꿔 가며 색칠을 해야 하는데 처음부터 잘 고려 하지 않으면 그림의 작은 틈이나 구석에는 색칠이 잘 안 되는 수도 많다. 이런 경우에는 그림을 확대해서 틈새를 매워 주는 작업을 해야 한다. 그게 아니면 이런 일들을 더 편리하게 해 줄 수 있는 좀 더 좋은 프로그램을 설치하고 그 프로그램을 쓰는 방법을 배워야 한다.

한국 지도로 이런저런 그림을 전에도 만들어 본 적이 있는 전문 디자이너라면 이 모든 작업이 딱히 어려운 일은 아니다. 그러나 문득 김에 대한 자료를 정리하고 싶은 마음을 먹은 평범한 사람에게는 상당한 시간을 소요하는 일이 될 수도 있다. 중간 단계에서 일이 매끄럽지 않게 진행되어 걸려 버리면 자칫 반나절 쯤의 시간은 날아갈 지도 모른다.

그런데 대형언어모델(LLM)로 작동되는 국내에서도 널리 쓰이는 한 인공지능 소프트웨어에 이런 그림을 만들어 달라고 입력하면 어떻게 될까? 단 한 줄 밖에 안 되는 간단한 요청 만으로 고작 1분 내외의 시간 만에 바로 내가 생각했던 그런 그림을 만들어서 보여 준다. 완성되어 표시되는 우아하고도 깔끔한 그림을 보면 거의 짜릿하다는 생각이 들 정도다. 가만 보면 보기 좋은 깨끗한 글꼴을 선택한 솜씨는 내가 직접 그림을 만들었을 때 보다도 오히려 더 나아 보인다.

나는 기뻐하며 그 그림을 작성하던 글 사이에 참고 자료로 끼워 넣으려고 했다. 그런데 그러다 보니 이상한 점이 하나 눈에 뜨였다.

충청북도 지역에 엷기는 하지만 분명히 눈에 잘 보이는 색깔이 칠해져 있었기 때문이다.

충청북도는 바다가 없는 곳이다. 그렇기 때문에 김을 생산할래야 생산할 수가 없다. 지상의 수조에서 김을 양식하는 신기술을 써서 김을 생산하는 것을 시도해 볼 수는 있을 것이다. 하지만 설령 그런 일이 벌어지고 있다고 해도 그 정도의 색깔이 보일 정도로 높은 숫자가 나올 것 같지는 않았다. 그래서 나는 인공지능이 보여 준 그림의 숫자와 색깔 하나 하나를 잘 살펴 보았다. 살펴 보니 틀린 곳이 군데군데 있었다. 전체적으로 봤을 때는 대체로 그럴 듯해 보이는 그림이었지만 오류를 품고 있었다. 결국 정확한 그림을 만들기 위해서는 모든 숫자와 색깔을 다시 다 검토해야 했다.

나는 요즘 이런 일을 주변에서 자주 본다. 인공지능에게 깔끔한 분석 자료를 만들어 달라고 한다. 차라리 인공지능이 못 하겠다는 답을 주거나 얼토당토 않은 결과를 준다면 사람은 그냥 포기하고 다른 방법을 사용할 것이다. 그런데 LLM 인공지능은 얼핏 보기에는 그럴 듯해 보이도록 내용을 꾸며서 보여 준다. 그렇기 때문에 그 내용 전체를 덜컥 믿어 버리는 것이다. 특히 나 같은 사람은 거기에 한참 빠져 든다. 심지어 “귀찮고 힘든 일인데 인공지능을 영리하게 활용해서 나는 쉽고 단순하게 해냈다”는 뿌듯함까지 생겨서 덕분에 주변에 자랑하고 싶은 마음까지 느끼곤 한다. 나는 점점 유행에 뒤쳐져 가고 있는 중년 남자인지라 뭐든 시대를 잘 따라 가고 있다고 할만한 일이 많지 않다. 그런데 요즘 최신기술이라는 인공지능을 써서 뭔가 멋진 일을 해냈다니, 그게 더욱 자랑스럽기도 했다. 그래서 더 빨리 인공지능이 만들어 준 결과를 내 보이고 싶었다. 이런 그림을 보면서 기뻐서 인공지능 때문에 너무 좋은 “인사이트”를 얻었다느니 해 봐야 사실은 정확하지도 않은 자료를 보고 혼자서 잘못된 생각만 강해졌을 뿐이다.

LLM 인공지능이 만들어 준 결과는 검토 없이 그냥 사용하면 안 된다. 2, 3년 전 처음 LLM을 대중이 접할 때 일어나던 소위 환각 현상 처럼 어이 없을 정도로 황당한 이야기를 하는 사례는 그 사이 급격히 줄어 들기는 했다. 그렇지만 여전히 이런저런 잘못된 결과는 종종 발생한다. 전체적으로는 그럴 듯해 보이지만 사이사이에 잘못된 결과가 끼어 들어 있어서 유의해서 보지 않으면 틀린 줄 알기 어려운 사례도 있다. 그런가 하면 언뜻 보면 상식과 고정관념에 맞아 들기 때문에 맞는 내용이겠거니 싶은데 막상 차분하게 숫자를 하나하나 따져 보면 잘못된 결과인 경우도 있다. 내가 원한 김 지도만 하더라도 전국 김 생산량에서 최대를 차지하는 전라남도 지역이 뚜렷하게 가장 짙은 색으로 표시되어 나왔기에 처음 본 순간에는 잘 만든 지도라고 믿을 뻔 했다.

이런 일이 발생하는 이유 중 하나는 애초에 LLM이 자연스러워 보이는 대화를 이어 가는 것을 목적으로 개발된 기술이기 때문이다. 우리는 오랜 고정 관념 때문에 기계나 컴퓨터의 작업 결과라고 하면 숫자와 논리가 정확하고 사실 관계 확인에 철저할 거라고 막연히 생각한다. 옛날 SF에서 흔히 로봇은 실수를 위로해 주는 따뜻한 말 한 마디는 잘 못 건내지만 대신에 “지금 당신의 얼굴 색깔이 평소보다 11.3% 정도 더 붉어졌으니 실수에 부끄러움을 느끼는 것으로 판단 됩니다” 따위의 말을 하는 냉정하지만 정확한 성격이었다.

그러나 LLM은 그렇지 않다. 그보다는 반대로 진부하지 않게 반성문을 쓰는 방법이나, 완곡하게 거절을 하는 말을 20가지 방법으로 다양하게 바꿔 이야기 하는 방법 등등에 훨씬 더 뛰어 나다. 과거에 기계가 잘 하지 못 한다고들 여겼던 감성적인 문장, 창의적인 표현에 도리어 더 좋은 성능을 발휘할 때가 많다는 뜻이다.

그렇기 때문에 LLM을 이용해 정리 작업이나 분석 작업을 시킬 때에는 항상 계산이나 사실 관계의 오류를 검토해서 바로 잡을 대책을 마련해야 한다. 이런 이야기는 내가 인공지능 기술을 공격하기 위해 굳이 새롭게 꺼내는 이야기가 아니다. 지금도 대표적인 LLM에 접속해서 말을 입력하려고 하면 “실수를 할 수 있습니다. 중요한 정보는 재차 확인하세요.”라고 눈에 잘 뜨이는 곳에 분명히 써 놓았다. 그렇기에 인공지능을 조직적으로 자주, 잘 활용하는 곳에서는 오류를 찾아 내고 재검토 작업을 효율적으로 하기 위한 별도의 수단이나 프로그램을 마련해 두기도 한다. 그게 아니라면 내가 김 지도를 만들 때 했던 것처럼 결국 일일이 사람이 다시 확인해야 한다.

그게 아니라 그냥 속편하게 LLM을 사용하려면 검토가 쉬운 내용이나 구체적인 세부 사항이 어찌 되었든 별 상관 없는 내용에 쓰는 편이 좋다. 프로필 사진을 지브리 스타일로 바꿔 달라는 것 정도야 LLM이 오류를 일으켜 내 얼굴을 지나치게 잘 생긴 모습으로 표현한다고 하더라도 뭐가 큰 문제겠는가? 혹은 반성문을 좀 더 길고 성의 있게 보이도록 늘여 달라고 하는 작업이라든가, 이리저리 아무렇게나 한 마디 씩 써놓은 내용을 정리해서 읽기 좋은 자기 소개서로 꾸며 달라는 용도로 사용하면 LLM의 위력을 쉽게 활용할 수 있다. 아닌게 아니라 요즘 자기소개서를 LLM으로 쓰는 사람들이 그렇게 많다고 한다. 이것도 생각해 보면 울적한 일이다. 김 생산량 지도의 숫자 확인하는 작업은 사람이 아직도 일일히 하고 있는데, 한 사람이 평생 일할 직장을 찾기 위해 한평생을 요약해 설명하는 일은 인공지능에게 맡기는 쪽이 더 좋다는 뜻 아닌가?

또 하나 사람들이 인공지능의 오류를 너무 쉽게 믿게 되는 이유는 무심코 인공지능의 말을 사람의 말처럼 받아 들이는 습관 때문이다.

대개 사람들은 자신이 잘 알고 자신 있는 분야일 수록 빠르게 답을 내어 놓고 망설임 없이 자신감 있게 유려한 말투로 말하곤 한다. 그에 비해 자신이 잘 모르는 분야나 알기는 하지만 정확한 자료를 갖고 지 않는 내용은 고민하면서 말을 천천히 하고 말투에 자신감도 그만큼 없어지게 된다. 사람은 수많은 사람과 대화를 나누는 가운데 이러한 상대방의 말투와 태도를 보고 그 말을 얼마나 믿어야 되는 지 느끼는 본능적인 감각을 쌓기도 한다. 이것을 서로 간에 정보 교환과 신뢰 수준의 결정을 효율적으로 만들어 주는 사람이란 종족의 훌륭한 재주라고 평가할 수도 있겠다.

그러나 인공지능은 사람이 아니기에 이런 습성에서 완전히 벗어나 있다. LLM은 믿을 수 없는 자료를 갖고 있다고 하더라도 망설이지 않고 금방 빨리 답을 주는 경우가 흔하며 아무리 잘못된 정보를 담고 있어도 누구보다도 깔끔하고 매끄러운 말투를 사용해 답을 준다. 그렇지만 그 LLM을 대하는 사람은 LLM이 빨리, 자신감 있는 말투로 답을 주었으니 그 답이 그만큼 더 믿을 만할 거라고 무심코 착각해버린다. 그렇기에 전 세계의 헤아릴 수 없이 많은 사람들이 “이거 나도 모르는 일인데 LLM한테 물어 보니 이렇다고 하더라”라는 정도의 이야기를 좋은 답을 얻었다는 듯이 남의 질문에 덧글로 달아 주곤 한다.

그래서 일어나는 사고도 많다. 내 주변에서는 낯선 동네에 가서 그 근처에 갈 만한 맛집이 어디 있는 지 LLM에게 물어 보았는데 있지도 않은 집을 추천해 주더라는 사례도 있었다. 조금 더 심각하게는 세금 처리하는 방법을 LLM에게 물어 봤고 LLM이 잘못된 이야기를 해주었는데 그 말만 믿고 세무처리 전문가에게 한참 따지고 들었다가 뒤늦게 LLM 쪽이 틀렸다는 것을 깨달았다는 사례도 있었다.

오류인 줄을 끝까지 몰라서 정말 큰 손해를 입힌 사례도 적지 않다. 세계적으로 자주 발생하는 사례로는 변호사들이 복잡한 서류 꾸미는 일을 LLM에게 맡긴 뒤 검토하지 않았다가 엉뚱한 내용을 포함시켜 낸 일들이 악명 높다. 2023년에는 미국에서 항공사 손해 배상 재판을 진행하면서 변호사들이 복잡한 서류 속에서 LLM이 제시해 준 세상에 없는 판례를 맞는 것이겠거니 생각하고 믿었다가 문제가 된 소식이 화제가 되었고, 2025년 8월에는 호주에서 살인사건 변호를 하면서 LLM이 써 준 세상에 없는 판례를 믿고 인용한 변호사가 있었다는 보도가 나왔다. 2025년 12월에는 한국에서도 공인노무사가 법원에 제출할 답변서를 LLM을 활용해 만들면서 마찬 가지로 세상에 없는 판례까지 그냥 포함시켜버린 사건이 있었다. 기술이 빠르게 발달하고 있다 보니 요즘은 아예 변호사 업계에서도 이런 일을 예방해 나가며 LLM의 도움을 얻게 해 주는 여러 방법들이 나오고 있기는 하다. 그런 만큼 인공지능을 점점 더 복잡한 일에 다양한 용도로 사용한다고 할 때에는 항상 오류 예방의 수단을 같이 고려해야 한다는 점이 더 중요해지고 있다.

만약 요즘 로봇 업계에서 자주 이야기하는 것처럼 인공지능이 소위 피지컬 AI의 형태로 현실 세계의 동작과 움직임에 대한 영역에 널리 적용된다면 어떤 일이 벌어질까? 그런 상황에서는 안전하게 인공지능을 활용하고 그 결과에서 오류가 일으키는 문제를 예방하는 일은 더욱 가치 있는 일이 될 것이다. 수 백 톤 짜리 물건을 운반하는 로봇 팔이 오류를 일으킨다거나, 고속으로 달리는 자율주행 자동차의 인공지능이 오류를 일으키는 상황에서 발생할 수 있는 피해는 지브리 스타일 얼굴 모습을 잘못 만든 정도와는 비할 바 없이 크다.

과연 우리는 이런 일을 얼마나 잘 대비하고 있을까? 나는 그에 대한 대비가 아직 부족하다고 생각하며 그렇기 때문에 오류에 대한 대책에 더 많은 투자와 경쟁이 필요하다고 생각한다.

세계적으로 산업 현장에서 일찌감치 로봇을 어느 나라 못지 않게 많이 도입해 온 한국은 로봇에 관한 여러 가지 규정이나 규제도 상당히 많이 쌓인 편이다. 예를 들어 고용노동부 고시 제2023-47호 별표12라는 자료에는 산업용 로봇의 안전을 검사하기 위한 기준이 이미 여러 가지로 나와 있다.

이에 따르면 오작동하는 로봇을 비상 정지시키기 위한 장치에 대해서도 여러 가지 기준이 있다. 그 복잡한 내용을 세 가지 정도로 요약해 보자면, 첫번째는 가능하면 빨간 버섯 모양의 단추처럼 비상정지 장치는 눈에 잘 뜨이는 모양으로 만들어 놓아야 한다는 것이고, 두번째는 비상정지 장치를 눌렀을 때 그때부터 정지 프로그램이 실행된다거나 하는 간접적인 방식이 아니라 바로 전기가 직접 끊겨 버리는 방식을 원칙으로 해 놓아야 한다는 것이다. 세번째는 한번 비상정지가 이루어지면 다시 사람이 일부러 작동을 시키기 위한 조치를 취하기 전에는 저절로 함부로 다시 작동되면 안 된다는 내용이다. 세 가지 기준 모두 잠깐만 생각해 보면 안전을 위해 납득할 수 있는 내용이다.

그렇지만 근래에 여러 전시회에서 춤을 추고 무술을 하려고 뛰어 다니는 모습을 보여 주는 그 많은 로봇 중에 과연 문제가 생겨서 옆에 있는 사람을 때리려고 할 때에 곧장 누를 수 있는 비상정지 장치가 큼지막한 빨간 단추로 눈에 잘 뜨이던 것이 몇 대나 있었나? 스마트폰 인공지능이 오류를 일으켜서 화면에서 이루어지는 조작이 다 차단 된 채로 은행계좌에 있는 내 돈을 모두 날려 버리려고 한다면 전원을 즉시 끌 수 있는 방법에는 무엇이 있을까? 예전에는 배터리를 강제로 빼버리는 방법이라도 있었지만, 요즘에는 뭘 할 수 있을까? 하물며 고생해서 겨우 전화기를 끈다고 하더라도 클라우드니, 가상화 서버니 해서 내 손이 닿지도 않고 어디 있는 지도 모를 어느 머나먼 곳의 컴퓨터 속에서 내 스마트폰을 조작하는 인공지능이 그대로 작동을 이어 간다면 도대체 무슨 수로 그것을 끌 수 있을까?

이 글을 쓴 곽재식은 숭실사이버대학교 환경안전공학과 교수로 환경공학, 과학 커뮤니케이션, 소설 창작의 경계를 넘나드는 연구와 집필을 수행하고 있다. 저서로는 <지구는 괜찮아, 우리가 문제지>, <한국 괴물 백과>, , <테크 트렌드 2027> 등이 있다. 과학과 기술이 사회에 미치는 영향을 중심으로 대중 매체와 강연 현장에서 난해한 과학 담론을 일상의 언어로 풀어내며 독보적인 활동을 이어가고 있다.

The post [칼럼] 우리는 AI의 실수를 얼마나 잡아낼 수 있나 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.