생성형 AI, 건설 현장 산재 줄일 열쇠 되나

생성형 AI 기술이 건설 현장에서 안전을 지키는 데도 중요한 역할을 한다. 적절히 활용될 경우 생명을 구할 수 있는 잠재력을 지니고 있다.

2024년 겨울 미국 매사추세츠주에 위치한 휴양지 마서즈 빈야드(Martha’s Vineyard)의 한 공공 지원 주택 건설 현장에서 32세 노동자 호세 루이스 콜라과소 크레스포(Jose Luis Collaguazo Crespo)가 사망했다. 그는 사다리에서 미끄러져 2층에서 지하로 추락했고, 매년 1,000명 이상이 목숨을 잃는 미국 건설 현장의 또 다른 희생자가 되었다. 건설업은 미끄러짐, 걸려 넘어짐, 추락으로 인한 치명적인 사고가 가장 빈번한 산업이다.

2025년 4월 UC 버클리에서 열린 ‘건설 혁신의 날(Construction Innovation Day)’ 콘퍼런스에서 발표자로 나선 필립 로렌조(Philip Lorenzo)는 “모두가 ‘안전이 최우선’이라고 말한다”고 운을 뗐다. 기업가이자 임원인 그는 이어 “하지만 실제로는 내부적으로 그다지 높은 우선순위를 두지 않는 경우도 있다. 현장에서는 종종 편법이 동원되며, 결국 안전과 생산성 사이에서 줄다리기가 계속되고 있다”고 지적했다.

로렌조는 샌프란시스코에 본사를 둔 ‘드론디플로이(DroneDeploy)’에서 산업 안전 관련 AI 툴을 개발하고 있다. 건설 현장에서 편법이나 무리한 작업으로 인한 위험을 줄이기 위한 목적이다. 드론디플로이는 영상과 이미지를 바탕으로 작업 진행 상황을 매일 디지털 모델로 변환하는 소프트웨어를 판매하는데, 업계에서는 이를 ‘현실 캡처(reality capture)’라고 부른다. 로렌조가 개발 중인 ‘세이프티 AI(Safety AI)’라는 도구는 매일 수집된 현실 캡처 이미지를 분석해, 현장에 미국 산업안전보건청(OSHA) 규정 위반이 있는지 자동으로 탐지한다. 그는 이 도구의 정확도가 95%에 이른다고 주장했다.

즉 소프트웨어가 위험 상황으로 판단한 경우 중 95%는 실제로 정확하며 OSHA의 특정 규정 위반과 관련이 있다는 의미다. 이 기술은 2024년 10월 출시되어 현재 미국 내 수백 개의 건설 현장에서 활용되고 있다. 로렌조에 따르면 캐나다, 영국, 한국, 호주 등 각국의 건축 규정을 반영한 버전도 함께 배포되었다.

세이프티 AI는 최근 몇 년 사이 실리콘밸리부터 홍콩, 예루살렘에 이르기까지 등장했던 여러 AI 기반 건설 안전 도구 중 하나다. 이들 대부분은 ‘클리커(clicker)’라 불리는 작업자들이 반복 작업으로 가공한 학습 데이터에 의존한다. 주로 저임금 국가에서 아웃소싱된 클리커들은 사다리 같은 핵심 객체에 일일이 경계 상자를 그려넣으며, 수천 장의 이미지를 라벨링해 알고리즘 훈련을 위한 기반 데이터를 만든다.

로렌조는 세이프티 AI가 생성형 AI를 활용해 안전 규정 위반 여부를 판별하는 최초의 도구라고 주장했다. 즉 이 알고리즘은 사다리나 안전모 같은 물체를 인식하는 수준을 넘어, 이미지 속 상황을 ‘추론’하고 해당 장면이 OSHA 규정을 위반하는지를 판단할 수 있다. 이는 현재 업계 표준인 단순 객체 감지 방식보다 더 고도화된 분석 방식이라고 그는 설명했다. 다만 성공률 95%라는 수치가 보여주듯, 세이프티 AI는 결코 완벽하거나 전지전능한 시스템이 아니며, 숙련된 안전 감독자의 보완과 감시가 여전히 필요하다.

현실 세계 속 시각 언어모델

로봇과 AI는 일반적으로 공장 바닥이나 운송 터미널처럼 통제된 정적 환경에서 성과를 내기 쉽다. 하지만 건설 현장은 본질적으로 매일 조금씩 변화한다.

로렌조는 ‘시각 언어모델(visual language model, 이하 VLM)’이라 불리는 생성형 AI의 일종을 활용해 현장을 더 효과적으로 감시할 수 있을 것으로 판단했다. VLM은 시각 인코더가 결합된 대형언어모델(LLM)로, 이미지를 ‘볼 수’ 있고 주어진 장면에서 어떤 일이 벌어지고 있는지를 분석할 수 있다.

먼저 로렌조 팀은 고객들로부터 명시적 동의를 받아 수년간 현실 캡처 이미지들을 수집해 왔다. 그리고 이를 바탕으로 수만 장의 OSHA 위반 사례를 포함한 일명 ‘골든 데이터 세트’를 구축했다. 그는 “이처럼 특정 목적을 위해 장기간 신중히 축적한 데이터 덕분에 설령 수 조 원 규모의 기술 대기업이라 해도 우리 기술을 베끼거나 압도하긴 어려울 것”이라고 말했다.

로렌조는 AI 모델 훈련을 위한 트레이너 역할을 할 소규모의 건설 안전 전문가 팀을 꾸렸다. 이들은 골든 데이터 세트에 포함된 장면을 선택해 VLM에 입력한 뒤, 숙련된 현장 전문가처럼 해당 장면을 단계적으로 분석할 수 있도록 전략적인 질문을 던지며 모델을 훈련시켰다. 만약 VLM이 위반 사항을 놓치거나 잘못된 경고를 내는 등 부정확한 결과를 도출할 경우, 트레이너들은 이전 단계로 되돌아가 프롬프트나 입력값을 조정했다. 로렌조는 “이 모델은 단순히 사물을 인식하는 것이 아니라, 특정한 방식으로 사고하도록 훈련되고 있다”고 설명했다. 다시 말해 이미지에서 일어나고 있는 상황에 대해 보다 정밀한 결론을 낼 수 있다는 뜻이다.

Examples from nine categories of safety risks at construction sites that DroneDeploy can detect. — 협착·끼임 사고 / 감전 사고 / 낙하물 사고
추락 사고 / 화재 안전 관리 / 사다리 안전
자재 취급·보관 / 미끄러짐·넘어짐 사고 / 물체 충돌 사고
세이프티 AI가 감지할 수 있는 안전 위험 유형 예시
COURTESY DRONEDEPLOY

한 가지 예로 로렌조는 사다리 사용 상황을 분석하는 데 있어 VLM이 기존 방법보다 훨씬 정교하다고 설명했다. 사다리는 건설 산업 내 추락 사망 사고의 24%를 차지하는 주요 원인이다.

그는 “기존 머신러닝 방식으로는 ‘작업자가 사다리를 위험하게 사용하고 있는가?’라는 질문에 답하기 매우 어렵다. 사다리와 사람을 찾아내는 것은 가능하지만, ‘저 사람은 괜찮다’거나 ‘아니, 저 사람은 사다리 꼭대기에 서 있다’는 식의 논리적 추론은 VLM만이 할 수 있다. 그리고 VLM은 ‘사다리 꼭대기 단에 서는 것은 금지’라는 OSHA 규정도 함께 참조해 준다”고 강조했다.

VLM은 ‘사다리 사용자가 지면과 3점 접촉을 유지하고 있는가?’, ‘사다리를 마치 기둥처럼 딛고 움직이며 사용하고 있는가?’ 등 여러 질문에 대한 답을 종합해 해당 장면의 사다리가 안전하게 사용되고 있는지를 판단한다. 로렌조는 “그 하나의 결론에 도달하기 위해 10개 이상의 질문을 거친다”고 말했다. 드론디플로이는 아직 관련 데이터를 외부에 공개하지 않았지만, 로렌조는 안전 전문가들로부터 이 방법론을 독립적으로 검증받기를 희망한다고 밝혔다.

나머지 5%

건설 AI에 VLM을 활용하는 것은 유망해 보인다. 하지만 뉴욕대학교 AI4CE 연구실을 이끄는 첸 펑(Chen Feng) 교수는 이에 대해 “여전히 꽤나 근본적인 문제들이 남아있다”고 경고했다. 그의 연구실은 건설 로보틱스와 기타 분야에서 3D 매핑 및 장면 이해 기술을 개발하고 있다. 펑 교수는 환각(hallucination) 문제와 VLM이 학습하지 못한 예외적인 위험 상황인 이른바 엣지 케이스(edge case)를 지적하며, “정확도 95%는 분명 고무적이지만 나머지 5%는 어떻게 해결할 것인가?”라고 반문했다.

그는 2024년에 발표된 <눈 뜬 장님?(Eyes Wide Shut?)>이라는 제목의 논문을 언급했다. NYU 박사과정생 셩방 통(Shengbang Tong)이 쓰고 유명 AI 연구자 얀 르쿤이 공동 저자로 참여한 이 논문은 VLM의 ‘구조적인 한계점’을 지적했다. 논문은 VLM이 “물체 인식 수준에서는 인간에 근접한 성능을 보여주지만, 보다 복잡한 작업에서는 아직 개선이 필요하다”고 분석했다. 펑 교수는 특히 VLM이 2D 이미지로부터 3D 장면 구조를 해석하는 데 어려움을 겪고, 공간적 관계에 대한 추론 능력이 부족하며, 시각적 장면에 대한 ‘상식’이 결여된 경우가 많다고 덧붙였다.

로렌조 역시 LLM의 중대한 한계점들을 인정하며, 특히 공간 추론 능력이 부족하다는 점을 시인했다. 이에 따라 세이프티 AI는 기존 머신러닝 기법도 병행해 건설 현장의 공간 모델링을 보완하고 있다. 여기에 포함되는 기술로는 이미지 속 주요 요소를 분리하는 ‘세분화(segmentation)’와 2D 이미지를 바탕으로 3D 디지털 모델을 생성하는 전통적인 ‘사진측량(photogrammetry)’ 기법이 있다. 또한 세이프티 AI는 사다리 사용을 포함한 10가지 주요 위험 유형을 집중적으로 학습하여 자주 발생하는 규정 위반 사례들을 사전에 예측할 수 있도록 설계되었다.

그럼에도 불구하고 로렌조는 VLM이 엣지 케이스를 놓칠 수 있다는 사실을 인정했다. 하지만 그는 한 명이 최대 15개 현장을 동시에 책임지는 과로 상태의 안전 관리자들에게는 디지털 ‘눈’이나마 하나라도 더 있는 것이 분명 도움 된다고 강조한다.

샌프란시스코 베이 지역에서 콘크리트 공사를 관리하는 아론 탄(Aaron Tan)은 세이프티 AI 같은 도구가 과중한 업무에 시달리는 안전 관리자들에게 유용할 수 있다고 보았다. 만약 이메일로 경고 알림을 받을 수 있다면 굳이 두 시간을 운전해 현장을 직접 방문할 필요가 없어 많은 시간을 절약할 수 있다는 것이다. 그는 이 소프트웨어가 실제로 인명 보호에 도움이 되는 것으로 입증된다면, 현장 노동자들 역시 결국에는 받아들이게 될 것이라고 말했다.

하지만 탄은 노동자들이 이러한 도구를 자신의 일거수일투족을 감시하고 처벌하는 ‘보스웨어‘로 여길 수 있다는 우려도 덧붙였다. 그는 이전 직장에서 보안 시스템으로 카메라를 도입했을 때, “오, 빅 브라더다. 당신네가 항상 날 감시하니 이제 사생활은 끝났다”라며 불편함을 토로했던 경험을 전했다.

구관이 명관

예루살렘에 본사를 둔 ‘세이프가드 AI(Safeguard AI)’의 이작 파즈(Izhak Paz) CEO는 VLM 도입을 고려한 적은 있지만, 신뢰성이 더 높다는 이유로 여전히 기존 머신러닝 기반 방식을 고수하고 있다. 그는 “머신러닝 기반의 ‘구식 컴퓨터 비전’은 기계와 인간 개입이 결합된 하이브리드 방식이라 신기술보다 여전히 우수하다”고 말했다. 파즈는 모델에 새로운 위험 요소를 학습시키기 위해 해당 위험과 관련된 대량의 라벨링 된 영상 데이터를 수집하고, 위양성과 위음성을 줄이도록 알고리즘을 최적화했다. 이 과정은 짧게는 수 주에서 길게는 6개월 이상 걸릴 수 있다고 그는 덧붙였다.

훈련을 마친 세이프가드 AI는 건설 현장의 잠재적인 위험 요소를 식별하기 위해 리스크 평가를 수행한다. 인터넷에 연결된 인근 카메라를 통해 실시간으로 영상을 받아 현장을 ‘볼 수’ 있으며, AI 에이전트가 이후 조치에 대한 지침을 현장 관리자들의 모바일 기기로 전송한다. 파즈는 정확한 가격은 공개하지 않았지만 해당 제품은 여러 현장을 동시에 관리하는 ‘중간 규모 이상’ 시공업체만이 감당할 수 있는 수준이라고 설명했다. 현재 이 도구는 이스라엘, 미국, 브라질의 약 3,500개 현장에서 사용되고 있다.

MIT 테크놀로지 리뷰가 2020년에 소개한 이스라엘 텔아비브 소재의 기업 빌도츠(Buildots)는 안전 분석은 하지 않지만, 주 1~2회 건설 현장의 시각적 공정 리포트를 자동 생성한다. 빌도츠 역시 라벨링된 훈련 데이터를 활용한 구형 머신러닝 방식을 사용한다. 로이 다논(Roy Danon) CEO는 “우리는 정확도가 99%여야 한다. AI가 환각을 일으켜서는 안 된다”고 말했다.

그는 훈련용 라벨링 데이터 확보는 예전보다 훨씬 쉬워졌다고 설명했다. 건설 현장의 영상 데이터를 모으면, 예컨대 콘센트처럼 하나의 객체가 다양한 프레임 안에 반복 포착되므로, 라벨링 데이터 확보가 훨씬 수월해졌다는 설명이다. 하지만 이 도구는 고가 솔루션이다. 연 매출 2억 5천만 달러(약 3,400억 원) 이상인 기업 중 약 50곳이 유럽, 중동, 아프리카, 캐나다, 미국 등지에서 빌도츠를 사용하고 있으며, 지금까지 300개 이상의 프로젝트에 활용되었다.

워싱턴대학교의 로봇·AI 법률 전문가 라이언 칼로(Ryan Calo)는 건설 현장에서 AI를 활용한 안전 관리 아이디어에 대해 긍정적이다. 그러나 이미 경험이 풍부한 안전 관리자들이 인력 부족 상태인 만큼 시공사들이 인간을 완전히 대체하려는 유혹에 빠질 수도 있다는 점을 우려했다. 그는 “작업자의 생명을 앗아갈 수 있는 안전 문제를 AI와 드론이 감지하는 건 정말 똑똑한 방식”이라면서, “단, 반드시 사람이 검증하는 과정이 동반되어야 한다”고 덧붙였다.

이 글을 쓴 앤드루 로즌블럼(Andrew Rosenblum)은 캘리포니아 오클랜드를 기반으로 활동하는 기술 전문 프리랜서 저널리스트다.

The post 생성형 AI, 건설 현장 산재 줄일 열쇠 되나 appeared first on MIT 테크놀로지 리뷰 | MIT Technology Review Korea.