통증 진단 혁신하는 AI, 새로운 맞춤 치료 시대 연다

이제 AI는 의료진이 환자의 불편함과 통증을 더 정확하게 평가하는 데도 도움을 주고 있다.

오차드 케어홈(Orchard Care Homes)은 영국 북부에 23개 시설을 운영하고 있는 치매 전문 요양시설 체인이다. 전직 간호사인 셰릴 베어드(Cheryl Baird)는 이곳에서 수년간 품질 관리 책임자로 근무하며 간호사들이 일명 ‘애비 통증 척도(Abbey Pain Scale)’란 걸 작성하는 모습을 지켜봤다. 이 척도는 언어적 의사소통이 불가능한 환자의 통증 정도를 관찰을 통해 측정하는 방법이다. 그러나 베어드는 이 척도를 두고 “통증 지표를 제대로 고려하지 않는 단순한 체크리스트 작업”이라고 설명했다.

실제로 해당 척도로는 통증과 다른 형태의 고통을 항상 명확히 구분할 수 없었기 때문에 흥분한 입소자는 행동 문제가 있는 것으로 오인되곤 했다. 그러면 이들은 향정신성 진정제만 처방받고, 통증 자체는 치료받지 못한 채 방치됐다.

그러다가 2021년 1월이 되어 오차드 케어홈은 ‘페인첵(PainChek)’이라는 스마트폰 앱의 시범 운영을 시작했다. 페인첵은 입소자의 얼굴을 스캔해 미세한 근육 움직임을 감지한 후 AI를 활용해 예상 통증 점수를 산출하는 앱이다. 몇 주 만에 시범 운영 병동에서는 진정제 처방이 줄어들고 복도 분위기가 차분해졌다. 베어드는 “사용 편의성, 정확성, 기존 척도로는 포착하지 못했을 통증을 식별하는 성능 등 모든 면에서 즉각적인 효과를 확인했다”고 당시를 회상했다.

연구자들은 요양원, 신생아실, 중환자실에서 통증을 혈압처럼 카메라나 센서를 통해 정확하게 측정할 수 있는 지표로 전환하기 위해 경쟁하고 있다.

기술을 활용해 통증을 측정하려는 노력은 오차드 케어홈에서만 일어나고 있는 일이 아니다. 연구자들은 요양원, 신생아실, 중환자실에서 ‘의학 분야의 가장 주관적인 생체 신호’인 통증을 마치 혈압처럼 카메라나 센서를 통해 정확하게 측정할 수 있는 지표로 전환하기 위해 경쟁하고 있다. 그 과정에서 탄생한 것이 ‘페인첵’이며, 이 앱은 이미 3개 대륙의 규제 기관에서 허가를 받고 1,000만 건 이상의 통증 평가에 사용됐다. 페인첵 외의 다른 스타트업들도 의료 현장에서 이와 비슷한 진전을 이루기 시작했다.

이처럼 통증을 평가하는 방식이 마침내 달라지고 있다. 그렇다면 알고리즘이 우리의 통증을 측정하기 시작하면 우리가 통증을 이해하고 치료하는 방식도 달라지게 될까?

우리는 이미 과학을 통해 통증의 특정 측면을 이해하고 있다. 가령 발가락을 부딪친 경우 통각수용체라는 미세한 경보 장치가 척수로 빠르게 전기 자극을 보내 먼저 찌르는 듯한 통증을 전달하고, 그 뒤로 묵직한 욱신거림이 이어진다. 척수에서 통각수용체의 신호는 관문(gate)이라는 곳과 만나게 되는데, 멍든 부위를 문지르는 것과 같은 친근한 행동으로 이 관문을 가득 채우거나 뇌가 공포나 평정에서 비롯된 지시를 되돌려 보내면, 관문은 우리가 통증을 인지하기도 전에 통증에 대한 신호를 약화시키거나 증폭시킬 수 있다.

관문은 다른 신경 활동과 뇌의 지시에 따라 통증 신호를 통과시키거나 차단할 수 있다. 관문을 통과하는 데 성공한 신호만이 뇌의 감각 지도로 전달돼 손상 부위의 위치를 파악하는 데 도움을 주며, 나머지 신호들은 통증의 심각성을 결정하는 감정 중추로 전달된다. 1,000분의 몇 초에 불과한 아주 짧은 시간 안에 뇌에서는 다시 명령을 내려보내 체내 ‘진통제’를 분비하거나 경보를 울린다. 다시 말해서, 통증은 손상이나 감각의 단순한 전달이 아니라 신체와 뇌 사이의 실시간 ‘교섭(negotiation)’을 통해 나타난다.

그러나 이 교섭이 어떤 식으로 이루어지는지에 대해서는 여전히 상당 부분이 수수께끼다. 예를 들어 과학자들은 일상적인 부상이 수년간 지속되는 과민반응으로 이어지는 원인을 알지 못한다. 이미 절단된 사지에서 통증을 느끼는 환상통의 의학적 기전 또한 아직 확실하지 않다. 환상통에 대한 여러 이론들이 제시됐지만, 아직도 사지 절단 환자의 약 3분의 2는 환상통을 겪는 데 반해 나머지 3분의 1은 왜 환상통을 느끼지 않는지 설명하는 이론은 없다.

통증의 정도를 본격적으로 측정하려는 첫 번째 시도는 1921년에 소개됐다. 환자들이 10cm의 선 위에 통증 정도를 점으로 표시하면 의료진이 점의 위치를 mm 단위로 측정해 0~100의 척도로 변환하는 방식이었다. 1975년 심리학자 로널드 멜잭(Ronald Melzack)이 개발한 맥길 통증 설문지(McGill Pain Questionnaire, MPQ)는 ‘타는 듯한’, ‘찌르는 듯한’, ‘욱신거리는’ 등의 78개 표현을 사용해 통증의 느낌과 강도를 표시할 수 있게 했다. 지난 수십 년간 병원들은 0~10점으로 통증을 평가하는 수치 평가 척도(Numeric Rating Scale, NRC)를 사용해왔다.

그러나 통증은 매우 주관적이다. 뇌는 우리가 어떻게 반응하느냐에 따라 척수로 신호를 되돌려 보낼 수 있기 때문에 우리의 기대나 감정에 따라 같은 부상이라도 통증의 강도가 달라질 수 있다. 한 실험에서는 참가자들에게 자극을 주고 아무 효과가 없는 연고를 바르라고 했을 때, 해당 연고가 통증 완화 연고라고 안내받은 쪽이 통증을 22% 덜 느꼈다고 보고한 일도 있었다. 실험에서 기능성 자기공명영상(fMRI)을 통해 뇌를 분석한 결과 통증을 덜 느꼈다고 보고한 참가자들의 뇌에서 통증을 전달하는 부분의 활동 감소가 확인됐는데, 이는 이들이 실제로 통증을 덜 느꼈음을 의미했다.

게다가 통증은 수많은 외부 요인의 영향을 받을 수도 있다. 한 연구에서는 이탈리아, 스웨덴, 사우디아라비아 출신 실험 참가자들에게 동일한 강도로 조정된 전기 자극을 가했는데, 참가자들이 평가한 통증 점수가 극명하게 달랐다. 0~10점으로 평가한 통증 점수에서 이탈리아 여성들은 가장 높은 점수에 표시한 반면, 스웨덴과 사우디아라비아 참가자들은 같은 통증에 더 낮은 점수를 매겼다. 이 결과를 보면 같은 통증이어도 문화에 따라 강도를 다르게 느낀다는 것을 알 수 있다.

병원 안에 존재하는 선입견이나 편향으로 인해 같은 통증 점수에 대한 의료진의 반응이 달라질 수도 있다. 2024년 퇴원 기록 분석에 따르면 여성의 통증 정도가 기록된 비율은 남성과 비교해 10% 낮았다. 이는 여성의 통증이 상대적으로 덜 중요하게 취급되거나 과소평가되는 경향이 있음을 보여준다. 한 대형 소아 응급실에서는 사지 골절로 내원한 흑인 아동이 비히스패닉 백인 아동에 비해 오피오이드 진통제를 처방받을 확률이 약 39% 낮았고, 이는 연구진이 통증 점수와 기타 임상적 요인을 통제한 후에도 마찬가지였다. 이러한 연구들은 같은 점수의 통증이라도 늘 같은 반응이나 치료로 이어지지 않는다는 점을 분명히 보여준다. 이뿐 아니라 많은 환자들은 통증을 스스로 보고할 수조차 없다. 연구 결과에 따르면 중환자실 환자의 약 70%가 의료진이 알아채지 못하거나 적절히 치료하지 못한 통증을 겪는 것으로 나타났는데, 해당 연구의 저자들은 이 문제가 진정제 투여나 삽관으로 인한 의사소통 장애와 관련이 있는 것으로 분석했다.

이러한 문제들로 인해 연구자들은 통증을 이해하고 평가하기 위한 더 객관적이고 개선된 방법을 모색하게 되었고, AI의 발전으로 이 분야에 새로운 가능성이 열리게 됐다.

연구자들이 택한 방법은 크게 두 가지로 나뉜다. 첫 번째는 전기 신호를 이용하는 것이다. 전기생리학자들은 자원자들에게 전극망을 부착한 후 자극에 따른 신경 신호를 관찰한다. 2024년 한 머신러닝 연구에서는 알고리즘이 몇 분간의 안정기 뇌파를 기반으로 피험자 중 만성 통증이 있는 쪽과 없는 쪽을 80% 이상의 정확도로 구분할 수 있었다고 보고했다. 다른 연구자들은 뇌파와 함께 피부 전기 반응, 심박수 변이도를 분석해 더 정확한 통증 측정 기준을 제시하기 위해 노력하고 있다.

이 방식의 예로는 이스라엘의 기술 기업 메다센스(Medasense)의 PMD-200 통증 모니터가 있다. AI 기반 도구를 활용해 통증 점수를 산출하는 이 장치는 심박수, 발한, 말초 체온 변화와 같은 생리학적 패턴을 입력값으로 사용하며, 수술 환자에 초점을 맞춰 마취과 의사가 수술 중 약물 투여량을 조절하는 데 도움을 주는 것을 목표로 한다. 복부 수술을 받은 환자 75명을 대상으로 한 2022년의 연구에서 이 모니터를 사용한 경우 오피오이드 진통제 사용을 늘리지 않고도 수술 후 환자가 보고하는 통증 점수가 더 낮아지는 것으로 나타났다(중앙값이 10점 만점에 3점이었고 대조군은 5점이었다). PMD-200은 미국 식품의약국(FDA)의 승인을 받았으며 미국, 유럽연합(EU), 캐나다 등 여러 곳에서 사용되고 있다.

두 번째 방식은 행동적 접근이다. 찡그린 표정, 경직된 자세, 갑작스러운 숨 들이쉬기 등은 다양한 수준의 통증과 연관되어 있다. 컴퓨터 비전(computer vision)을 활용하는 연구팀들은 환자의 표정 변화를 고속 영상으로 촬영해 ‘얼굴 움직임 부호화 시스템(Face Action Coding System, FACS)’으로 학습한 신경망에 입력했다. 표정을 분석하는 객관적이고 보편적인 시스템을 구축하기 위해 1970년대 말에 개발된 FACS는 44개의 미세한 얼굴 움직임을 분석할 수 있다. 실험실 테스트에서 FACS로 학습한 모델들은 데이터 세트에서 통증을 나타내는 프레임을 90% 이상의 정확도로 식별할 수 있었는데, 이는 인간 전문가에 근접한 수준이다. 이와 유사하게 자연어 처리 기술을 활용해 임상 기록에 적힌 자세에 대한 설명이나 문장 조각을 분석해 ‘무릎을 가슴 쪽으로 굽힌다’와 같이 강한 통증과 연관된 표현을 포착하는 방법도 있다.

페인첵은 이러한 행동 모델 중 하나이며, 카메라 기반 체온계처럼 작동하지만 통증에 특화된 앱이다. 간병인이 앱을 실행해 휴대폰을 환자의 얼굴에서 30cm 떨어진 곳에 고정하면, 3초간 신경망이 연구에서 통증과 가장 강한 연관성이 드러난 9개의 미세한 움직임 유형(윗입술 올리기, 눈썹 찌푸리기, 긴장된 볼 등)을 탐지한다. 탐지 후에는 화면에 0~42점 사이의 점수가 표시된다. 페인첵의 공동 발명자인 크레슈닉 호티(Kreshnik Hoti) 선임 과학자는 “모든 인간에게는 공통적인 표정 유형이 있는데 그중 9개 유형이 통증과 연관되어 있다”고 설명했다. 이 시스템은 FACS를 기반으로 구축됐다. 앱은 표정 스캔을 마치면 신음, 수면 장애 등 다른 증상에 대해 ‘예/아니오’로 답하는 체크리스트를 안내하며, 결과를 클라우드 대시보드에 저장해 지속적인 상황을 보여준다.

호티 선임 과학자는 표정 스캔 결과를 사람이 직접 작성하는 체크리스트와 연계한 것이 나중에 내린 결정이었다고 설명했다. 그는 “처음에는 AI가 모든 것을 자동화해야 한다고 생각했지만, AI와 사람이 직접 입력하는 값을 함께 활용하는 것이 우리 앱의 장점이 될 수 있음을 깨달았다”고 밝혔다. 간호사가 아닌 간병 보조인이 대부분의 평가를 수행하기 때문에 의사들은 데이터를 수집하는 것에서 벗어나 데이터에 기반해 행동할 수 있게 된다.

페인첵은 2017년 호주 식약처(TGA)의 승인을 받았으며, 정부의 전국적인 보급 지원금 덕분에 호주 내 수백 개 요양원에 도입됐다. 페인첵은 영국에서도 승인받았고, 코로나19 확산 직전에 보급되다가 봉쇄 조치 완화 후 다시 보급됐다. 캐나다와 뉴질랜드에서는 시범 프로그램을 운영하고 있다. 미국에서는 현재 FDA의 결정을 기다리고 있다. 호티 선임 과학자는 “전사적 데이터에 따르면 페인첵 도입 후 향정신병제 사용이 약 25% 감소했으며, 스코틀랜드에서는 낙상 사고가 42% 줄었다”고 강조했다.

a person holding a phone up in front of an elderly person, whose face is visible on the screen — 페인첵은 AI로 얼굴을 스캔해 통증 점수를 추정하는 모바일 앱이다.
PAINCHEK 제공

오차드 케어홈은 페인첵을 조기에 도입한 기관 중 하나다. 당시 이 곳의 품질 관리 책임자였던 베어드는 “AI 도입 전에는 대부분의 업무가 ‘규정 준수를 증명하기 위한 것’이었다”고 설명했다.

페인첵 도입으로 오차드 케어홈은 큰 성과를 거뒀다. 오차드 케어홈이 4개 요양시설을 대상으로 진행한 내부 연구에서는 월별 통증 점수, 행동 문제 발생 건수, 처방전 건수를 추적했다. 연구 결과, 몇 주 만에 향정신성 약물 처방이 감소했고 입소자들의 행동이 안정됐다. 효과는 이뿐만이 아니었다. 베어드는 “간병인들이 파악하지 못한 치과 통증으로 식사를 거르던 입소자들이 다시 식사를 시작했으며 통증으로 고립되어 있던 이들도 다시 사람들과 어울리기 시작했다”고 설명했다.

오차드 케어홈 시설 내부에서는 문화적 변화가 일어나고 있다. 베어드는 새로운 직원을 교육할 때 통증 측정을 혈압이나 산소 포화도 측정에 비유하며 “혈압이나 산소 포화도는 추측하지 않으면서 왜 통증 정도는 추측하려고 하는가?”라고 말했다고 밝혔다. 비유는 통했지만, 직원들의 완전한 동의를 얻는 일은 여전히 쉽지 않다. 의료진의 임상적 판단만으로도 충분하다고 주장하는 간호사들도 있고, 앱에 로그인해서 기록을 남기는 데 거부감을 보이는 이들도 있다. 베어드는 “이 분야는 기술 도입이 늦었지만 그래도 변화하고 있다”고 말했다. 특히 애비 통증 척도를 작성하려면 20분이 걸리지만, 페인첵을 실행해서 환자 얼굴을 스캔하고 체크리스트를 작성하는 데는 5분도 걸리지 않는다는 점 또한 이러한 변화에 도움이 되고 있다.

페인첵의 엔지니어들은 현재 아기 환자들을 위한 앱을 개발하고 있다. 페인첵 인펀트(PainChek Infant)는 성인보다 표정 변화가 훨씬 빠른 1세 미만 영아를 대상으로 하는 앱이다. 신생아 얼굴로 다시 학습한 알고리즘은 ‘영아 얼굴 움직임 부호화 시스템(Baby Facial Action Coding System, BFACS)’을 기반으로 6개의 검증된 얼굴 움직임 유형을 감지한다. 페인첵 인펀트는 별도의 승인 절차를 밟고 있으며 호주에서는 제한적 테스트를 시작했다.

이러한 장치에 회의적인 평가도 존재한다. AI에 기반한 시스템을 전적으로 신뢰할 수 없다는 것이다. 예를 들어 얼굴을 분석하는 AI는 오랫동안 피부색에 대한 편향 문제가 있었다. 또한 AI는 메스꺼움이나 공포에서 비롯된 표정을 통증으로 인한 것으로 오독할 수도 있다. 페인첵의 정확도는 얼굴 스캔 후 진행하는 체크리스트 답변의 질에 달려있다. 답변을 대충 하면 결과가 어느 쪽으로든 왜곡될 수 있다. 페인첵이 제공하는 결과에는 환자와의 상호작용을 통해 간병인이 확보할 수 있는 여러 정보가 결여되어 있다. 또한 이러한 앱 사용으로 알고리즘에 지나치게 의존하다가 의료인의 자체 판단력이 약화될 가능성도 있다.

페인첵이 올가을 FDA 승인을 받는다면 통증을 측정하는 새로운 기술 시스템 구축을 위한 광범위한 노력의 일부가 될 것이다. 다른 스타트업들은 신경병성 통증을 측정하기 위한 뇌파 머리띠나 암 통증을 감지하는 피부 전기 반응 센서를 제안하거나, 심지어 간호 기록에서 숨겨진 통증의 증거를 찾아내는 언어모델까지 제안하고 있다. 그러나 외부 장치로 통증을 측정하려는 시도에는 편향이나 부정확성과 같은 문제가 발생할 위험이 있으며, 이는 이러한 장치들을 상당히 사용한 후에야 제대로 드러날 것이다.

그래도 베어드는 확실한 믿음을 품고 있다. 베어드는 “나는 만성 통증을 겪고 있고 사람들에게 내 통증을 이해시키기가 늘 어려웠다”며 “페인첵이 있었다면 상황이 완전히 달랐을 것”이라고 말했다. 말없이 고통받는 이들이 AI를 통해 자신의 고통을 ‘숫자’로 나타내는 목소리를 갖게 되고 의료진이 이를 들을 수 있다면, 체온, 맥박 등을 기록하는 차트에 ‘통증’이라는 한 줄을 더 추가하는 것이 시간을 할애할 만한 가치 있는 일이 될지도 모른다.

이 글을 쓴 디나 무사(Deena Mousa)는 글로벌 보건, 경제 발전, 과학 기술 진보를 다루는 연구원이자 기자이다. 무사는 글로벌 보건 및 AI가 초래할 수 있는 잠재적 위험 등에 집중하는 기금 지원 기관이자 자문 기관인 오픈 필란트로피(Open Philanthropy)의 수석 연구원으로 근무하고 있다. 이곳에서 새로운 중점 분야를 조사하며 통증 관리 관련 업무는 수행하지 않는다. 오픈 필란트로피는 과거 이 분야의 연구에 자금을 지원한 적이 있으나, 무사는 통증 관리 관련 기금 지원 업무에 관여한 적이 없다.

The post 통증 진단 혁신하는 AI, 새로운 맞춤 치료 시대 연다 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.