AI를 품은 판사들, 법정의 판도를 바꾸다

판결문 요약부터 법률 쟁점 검토까지, 일부 판사들이 AI를 법정 업무에 적극 활용하고 있다. 그러나 사소한 오류도 판결에 치명적인 영향을 줄 수 있어 주의가 요구된다.

최근 미국 사법 현장에서는 인공지능(AI)이 생성한 오류가 걸러지지 않은 채 문서와 결정문에 반영되는 사례가 잇따르고 있다. 시작은 일부 대형 로펌 소속 변호사를 포함한 몇몇 변호사들이 존재하지 않는 판례를 인용한 서류를 제출하면서였다.

이후 비슷한 잘못이 법정 곳곳에서 반복됐다. 지난해 12월에는 AI와 허위 정보 분야 전문가로 알려진 스탠퍼드대 교수가 딥페이크 관련 소송에서 환각(hallucination)과 오류가 담긴 선서 진술서를 제출해 문제가 되기도 했다.

이런 오류는 결국 판사들이 바로 잡았다. 판결문이나 상대측 변호인이 문제를 지적하면 판사들은 경고나 벌금을 부과했고, 변호사들은 다시는 AI를 함부로 신뢰하지 못할 만큼 곤욕을 치렀다.

그럼에도 일부 판사들은 생성형 AI를 법정에 도입하고 있다. 적절한 안전장치를 마련하면 법률 검색을 신속히 하고, 사건을 요약하며, 일상적인 명령문을 작성하는 등 미국 전역에서 심각하게 지연되고 있는 법원 업무 개선에 기여할 수 있다고 보기 때문이다.

그러나 올여름에도 판사가 AI가 만든 오류를 걸러내지 못하고 그대로 인용하는 일이 발생했다. 뉴저지의 한 연방 판사는 AI가 생성한 것으로 보이는 오류가 가득한 명령문을 다시 발부해야 했고, 미시시피의 한 판사는 명령문에 포함된 AI 환각 의혹에 대해 끝내 설명하지 못했다.

이 상황은 두 가지를 시사한다. 첫째, 인간의 판단이 불필요한 ‘일상적 업무’의 범위를 명확히 규정하는 일이 생각보다 훨씬 어렵다는 점이다. 둘째, 변호사가 AI 사용으로 실수를 하면 엄격한 검증 절차를 거치지만, 판사는 같은 수준의 책임을 지지 않을 가능성이 크며 그 실수를 피하거나 피해가 발생하기 전에 바로잡는 일도 훨씬 더 어렵다는 점이다.

법정 속 AI 활용 가이드라인

미국 텍사스 서부지방법원의 자비에르 로드리게스(Xavier Rodriguez) 연방판사는 AI에 대해 회의적인 입장을 견지하고 있다. 그는 기술 업계에서 일하는 쌍둥이 형제의 영향으로 챗GPT 출시 4년 전인 2018년부터 AI를 공부하기 시작했지만, 법정에서 AI가 만든 오류를 직접 목격한 이후 이 기술을 더욱 경계하게 됐다.

최근 진행된 한 보험금 지급 분쟁에서는 원고와 피고 모두 변호인 없이 스스로를 대리했다. 이런 상황은 드물지 않으며, 실제로 연방법원 민사 사건의 약 4분의 1은 한쪽만 변호인을 선임한 채 진행된다. 두 당사자는 각자 서류를 작성해 제출하고 법정에서 직접 변론했다.

로드리게스 판사는 “양측 모두 AI 도구를 사용했고, 존재하지 않는 판례를 인용한 서류를 제출했다”고 밝혔다. 그는 제재를 가할 권한이 있었지만 변호사가 아닌 당사자라는 점을 감안해 이를 면제했다. 그러면서 “많은 판사들이 이러한 오류에 과하게 반응한다”며 “강연을 할 때마다 변호사들이 AI 등장 훨씬 전부터 ‘환각’을 해왔다고 농담을 던지곤 한다”고 덧붙였다. 그의 시각에서 AI 오류를 걸러내지 못하는 일은 1년 차 변호사의 실수를 발견하지 못하는 것과 크게 다르지 않다. 그는 “나는 다른 사람들만큼 심각하게 받아들이지 않는다”고 말했다.

실제로 로드리게스 판사는 법정에서 생성형 AI를 활용해 사건을 요약하지만, 특정 제품 홍보로 비칠 수 있다는 이유로 사용하는 도구의 이름은 공개하지 않았다. 그는 AI로 사건의 핵심 인물을 식별하고, 주요 사건의 타임라인을 작성하며, 심리를 앞두고는 제출 자료를 기반으로 질문을 생성하게 한다. 그는 이러한 작업이 인간의 판단력이 크게 필요하지 않고, 제출 전 오류를 걸러낼 기회가 충분해 위험이 낮다고 본다. 반면 보석 허가 여부처럼 재량과 판단이 중시되는 사안은 AI에 맡기지 않는다.

매사추세츠주 우스터공과대학교에서 인간과 AI의 상호작용을 연구하는 에린 솔로베이 교수는 최근 영국 판사들을 대상으로, AI에 맡겨도 안전하다고 생각하는 업무와 반드시 인간 전문가가 맡아야 한다고 여기는 업무를 조사했다. 그는 “무엇을 AI에 맡기고 무엇을 판사가 해야 하는지의 경계는 판사와 상황에 따라 달라진다”고 설명했다.

다만 솔로베이 교수는 “일부 업무는 AI의 강점과 애초에 맞지 않는다”고 지적했다. 예를 들어 방대한 문서 요약은 일반 사용자 대상 모델과 법률 전문가 대상 모델의 결과가 완전히 다를 수 있다. 또한 “AI는 사건 순서를 배열하는 등 논리적 판단이 필요한 업무에 취약해, 타임라인이 그럴듯해 보여도 사실과 다를 수 있다”고 경고했다.

로드리게스 판사를 비롯한 일부 판사들은 지난 2월, 법의 불확실한 영역에 대한 원칙을 제시하는 싱크 탱크인 세도나 컨퍼런스(Sedona Conference)를 통해 가이드라인을 발표했다. 여기에는 비교적 안전하게 AI를 활용할 수 있는 방법으로 법률 조사, 예비 심리 기록 작성, 변론문 검색 등이 포함됐다. 다만 AI가 만든 결과는 반드시 검증해야 하며 환각 문제를 완전히 해결한 생성형 AI 도구는 현재 존재하지 않는다는 경고도 함께 담겼다.

AI 오류를 피하는 법

미국 캘리포니아주 연방 치안판사이자 가이드라인 공동 저자인 앨리슨 고다드 판사는 딸이 다니는 고등학교에서 변론 기술 강의를 하던 중 처음으로 AI가 사법부에 미칠 영향을 실감했다. 한 학생의 에세이에 감탄해 딸에게 그 이야기를 전하자, 딸은 “사실 그 에세이는 챗GPT가 쓴 것”이라고 말했다. 고다드 판사는 “그 순간 이 기술이 법조계를 완전히 바꿔놓을 것임을 깨달았다”고 말했다.

그녀는 법정에서 챗GPT, 클로드 등 여러 AI 모델을 시험하며, 특히 기술적 쟁점이 얽힌 사건에서 변호인에게 던질 질문을 고를 때 AI를 활용한다. 지방법원 판사가 작성한 60쪽 분량의 명령문을 요약시킨 뒤 후속 질문을 준비하거나, 복잡한 문서 속 정보를 정리하는 방식이다. 그는 “AI는 일종의 사고 파트너처럼 내가 미처 떠올리지 못한 관점을 제시한다”고 설명했다.

고다드 판사는 서기들에게도 AI 사용을 권하며 기본적으로 사용자 대화를 학습에 활용하지 않는 앤트로픽의 클로드(Claude)를 특히 추천한다. 다만 한계는 분명하다. 법률 전문 지식이 필요한 경우에는 변호사 전용 AI 도구인 웨스트로(Westlaw)나 렉시스(Lexis)를 사용하지만, 그 외 업무에서는 범용 AI 모델이 더 빠르다고 평가한다. 또한 편향성 우려가 큰 형사 사건, 특히 체포의 상당한 근거(probable cause)를 판단해야 하는 경우에는 AI 사용을 배제한다.

이처럼 고다드 판사 역시 AI 열풍 속에서 많은 사람들이 마주하는 딜레마와 직면해 있다. 3년이 지난 지금 기업들은 유창하게 말하고 인간과 유사하게 소통하는 도구들을 내놓았지만, 그 이면에는 여전히 풀기 어려운 문제가 도사리고 있다. 그럴듯하지만 틀린 답을 내놓는 ‘환각’ 현상, 모든 분야에 쓸 수 있으나 어느 한 분야에서도 완벽하지 않다는 한계, 대화 내용이 인터넷에 유출될 수 있다는 위험이 대표적이다.

우리는 AI를 쓸 때마다 절약한 시간이 그 위험을 감수할 만큼 가치 있다고 믿고, 문제가 불거지기 전에 실수를 걸러낼 수 있다고 믿는다. 그러나 판사의 경우 그 대가는 훨씬 크다. 잘못된 판단은 공개적인 망신을 넘어 판결을 받는 사람들의 삶에 장기적인 영향을 미친다. 고다드 판사는 “환각이 담긴 판례나 명령문을 인용하는 판사가 되고 싶지 않다”며 “그건 정말 부끄러운 일이고 직업적으로 치명적인 수치”라고 말했다.

그럼에도 일부 판사들은 AI 시대에 뒤처지기를 원치 않는다. AI 업계 일각에서는 객관성과 합리성을 갖춘 AI 모델이 실수를 범하는 인간보다 더 나은 판사가 될 수 있다는 주장도 나온다. 이런 인식은 일부 판사들로 하여금 너무 앞서나가는 위험보다 뒤처지는 위험이 더 크다고 판단하게 만든다.

‘터지기 직전’의 위기

루이지애나주 제5순회 항소법원의 스콧 슐레겔 판사는 AI 조기 도입이 초래할 수 있는 위험성에 대해 강하게 경고하고 있다. 그는 그동안 블로그를 통해 법원 시스템의 현대화에 기여할 기술의 긍정적 역할을 꾸준히 소개해 왔지만, 판결문에 AI가 만든 오류가 포함되는 사태는 변호사가 가짜 판례를 인용하는 문제보다 훨씬 큰 규모의 ‘터지기 직전의 위기’를 불러올 수 있다고 지적했다.

변호사가 잘못된 판례를 인용하면 법원 제재를 받거나 신청이 기각되고, 상대측이 오류를 발견하면 재판에서 패소할 수 있다. 하지만 슐레겔 판사는 “판사가 실수하면 그것이 곧 법이 된다”며 “한두 달 뒤 사과하고 결정을 번복할 수 있는 차원의 문제가 아니다”라고 강조했다. 그는 아동 양육권이나 보석 심리 사례를 예로 들며 판사가 AI에 의존해 결정을 내릴 경우 심각한 결과가 발생할 수 있으며, 그 판단이 잘못되거나 꾸며낸 인용문에 기반한다면 위험은 훨씬 커진다고 경고했다.

실제 사례도 있다. 지난 6월 조지아주의 한 항소법원 판사는 당사자가 제출한 가짜 판례 일부를 인용해 명령문을 냈지만, 오류는 끝내 걸러지지 않았다. 7월에는 뉴저지의 한 연방 판사가 판결문에 ‘환각’이 포함됐다는 변호사들의 항의를 받은 뒤 의견서를 철회했다.

변호사들은 법원 명령에 따라 제출 서류의 오류를 해명해야 하지만, 판사에게는 이 같은 투명성이 거의 요구되지 않으며 자발적으로 나서는 경우도 드물다. 실제로 지난 8월 4일 미시시피의 한 연방 판사는 민권 소송 판결문에서 잘못된 이름과 중대한 오류가 발견돼 새 판결문을 냈지만, 주정부의 설명 요구에 “더 이상의 설명은 필요 없다”는 짧은 답변만 남겼다.

슐레겔 판사는 “이런 실수는 사법부에 대한 대중의 신뢰를 무너뜨릴 수 있다”고 우려했다. 그는 “증언 요약이나 간단한 작문 피드백처럼 제한적이고 사후 검토가 가능한 범위에서 AI를 활용하면 시간을 절약할 수 있으며, 초임 변호사가 작성한 초안을 검토하듯 정확성을 철저히 확인한다면 긍정적인 결과를 얻을 수 있다”고 말했다.

그러나 판사의 업무 대부분은 그가 ‘백지 문제(white-page problem)’라 부르는 과제에 해당한다. 복잡한 사건에서 아무런 기초 자료 없이 백지상태로 결정을 내려야 하는데, 바로 이 과정이 판사의 본질적 역할이라는 것이다. 그는 “AI가 초안을 작성하도록 하는 것은 그 본질을 훼손한다”고 지적했다.

슐레겔 판사는 “예를 들어 이번 주말 아이를 누가 맡을지를 판사가 결정해야 하는데 누군가가 ‘그록(Grok) 대신 제미나이나 챗GPT를 썼어야 한다’고 말하는 상황이 온다면, 그것은 이미 사법 시스템이 제 역할을 잃은 것”이라고 말했다.

The post AI를 품은 판사들, 법정의 판도를 바꾸다 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.