# (번역) 인간의 실수와 AI의 실수는 다르다 인간은 항상 실수를 합니다. 우리 모두는 매일 새로운 일과 일상적인 일 모두에서 실수를 합니다. 실수 중에는 사소한 것도 있고 치명적인 것도 있습니다. 실수는 친구와의 신뢰를 깨뜨리고, 상사의 신뢰를 잃고, 때로는 삶과 죽음의 차이를 만들기도 합니다. 수천 년 동안 인류는 인간이 흔히 저지르는 실수를 처리하기 위해 보안 시스템을 만들어 왔습니다. 요즘 카지노에서는 딜러가 같은 일을 너무 오래 하면 실수를 하기 때문에 딜러를 정기적으로 교체합니다. 병원 직원은 의사가 정확한 신체 부위를 수술할 수 있도록 수술 전에 팔다리에 글씨를 쓰고, 수술 도구가 몸 안에 남아 있지 않은지 확인하기 위해 수술 도구를 세어봅니다. 복사 편집에서 이중 입력 장부 작성, 항소 법원에 이르기까지 인간은 인간의 실수를 바로잡는 데 정말 능숙해졌습니다. 이제 인류는 완전히 다른 종류의 실수 교정기를 사회에 빠르게 통합하고 있습니다: 바로 AI입니다. [대규모 언어 모델](https://spectrum.ieee.org/tag/llms) (LLM)과 같은 기술은 전통적으로 인간이 수행하던 많은 인지적 작업을 수행할 수 있지만 실수도 많이 합니다. 챗봇이 돌을 먹으라거나 피자에 접착제를 넣으라고 말하는 것은 [우스꽝스러워](https://www.buzzfeed.com/carleysuthers/weird-and-wrong-ai-responses) 보일 수 있습니다. 하지만 AI 시스템의 실수를 인간의 실수와 구별하는 것은 실수의 빈도나 심각도가 아닙니다. 그것은 그들의 이상함입니다. AI 시스템은 인간과 같은 방식으로 실수를 하지 않습니다. AI 사용과 관련된 많은 마찰과 위험은 바로 이러한 차이에서 비롯됩니다. 우리는 이러한 차이에 적응하고 AI의 실수로 인한 피해를 방지할 수 있는 새로운 [보안](https://spectrum.ieee.org/tag/security) 시스템을 개발해야 합니다. ### 인간의 실수와 AI의 실수 인생의 경험을 통해 우리 각자는 인간이 언제 어디서 실수할지 쉽게 짐작할 수 있습니다. 인간의 실수는 지식의 가장자리에서 발생하는 경향이 있습니다: 우리 대부분은 미적분 문제를 풀 때 실수를 저지르곤 합니다. 우리는 인간의 실수가 군집을 이룰 것으로 예상합니다: 하나의 미적분 실수는 다른 실수를 동반할 가능성이 높습니다. 실수는 피로와 주의 산만 등의 요인에 따라 실수가 잦아졌다가 줄어들기를 기대합니다. 그리고 실수는 종종 무지를 동반합니다: 미적분 실수를 하는 사람은 미적분 관련 질문에 "모르겠습니다"라고 대답할 가능성이 높습니다. AI 시스템이 이러한 인간과 같은 실수를 저지르는 정도까지만 실수 수정 시스템을 활용할 수 있습니다. 그러나 현재의 AI 모델, 특히 LLM은 실수를 저지르는 방식이 다릅니다. AI 오류는 특정 주제에 대한 클러스터링 없이 겉보기에 무작위로 발생합니다. LLM의 실수는 지식 공간 전체에 더 고르게 분포하는 경향이 있습니다. 모델이 미적분 문제에서 실수할 확률과 [양배추가](https://arxiv.org/html/2405.19616v1) 염소를 먹는다고 제안할 확률이 똑같을 수 있습니다. 그리고 AI의 실수는 무지를 동반하지 않습니다. LLM은 완전히 틀린 말을 할 때에도 인간과 [마찬가지로 자신 있게](https://spectrum.ieee.org/chatgpt-reliability) 말할 수 있으며, 이는 사실이라고 말할 때와 마찬가지입니다. LLM의 무작위로 보이는 [불일치](https://arxiv.org/pdf/2305.14279) 때문에 복잡한 다단계 문제에서 그들의 추론을 신뢰하기는 어렵습니다. 비즈니스 문제를 해결하기 위해 AI 모델을 사용하려면 AI 모델이 제품의 수익성을 높이는 요인을 이해하는 것만으로는 충분하지 않으며, 돈이 무엇인지 잊지 않는지 확인해야 합니다. ### AI 실수를 처리하는 방법 이 상황은 두 가지 가능한 연구 영역을 나타냅니다. 첫 번째는 인간과 더 유사한 실수를 하는 머신러닝을 설계하는 것입니다. 두 번째는 LLM이 저지르기 쉬운 특정 종류의 실수를 처리하는 새로운 실수 수정 시스템을 구축하는 것입니다. 저희는 이미 머신러닝이 보다 인간적인 방식으로 행동하도록 유도하는 몇 가지 도구를 갖추고 있습니다. 이러한 도구 중 다수는 모델이 인간 개발자의 목표와 동기에 [따라 행동하도록](https://spectrum.ieee.org/the-alignment-problem-openai) 하는 것을 목표로 하는 '[정렬](https://arxiv.org/abs/2406.18346)' 연구 분야에서 비롯된 것입니다. 한 가지 예로 [ChatGPT의](https://spectrum.ieee.org/tag/chatgpt) 획기적인 성공을 [이끈](https://venturebeat.com/ai/how-reinforcement-learning-with-human-feedback-is-unlocking-the-power-of-generative-ai/) 기술인 [인간의 피드백을 통한 강화 학습을](https://arxiv.org/abs/2203.02155) 들 수 있습니다. 이 방법에서는 AI 모델이 인간 평가자로부터 엄지손가락을 치켜세우는 응답을 생성하면 (비유적으로) 보상을 받습니다. 유사한 접근 방식을 사용하여 AI 시스템이 더 인간과 유사한 실수를 하도록 유도할 수 있으며, 특히 이해하기 어려운 실수에 대해 더 많은 불이익을 줄 수 있습니다. AI의 실수를 잡아내는 데는 인간의 실수를 방지하기 위해 사용하는 일부 시스템이 도움이 될 것입니다. LLM이 자신의 작업을 [다시 확인하도록](https://arxiv.org/pdf/2308.00436) 강제하는 것은 어느 정도 오류를 방지하는 데 도움이 될 수 있습니다. 그러나 LLM은 겉보기에는 그럴듯해 보이지만 정말 말도 안 되는 [설명으로](https://arxiv.org/pdf/2406.02061) 이성을 벗어난 비행을 할 수도 있습니다. 인공지능을 위한 다른 실수 완화 시스템은 인간을 위해 사용하는 것과는 다릅니다. 기계는 인간처럼 쉽게 지치거나 좌절할 수 없기 때문에 같은 질문을 조금씩 다른 방식으로 반복해서 던진 다음 여러 답변을 [종합하는](https://arxiv.org/abs/2210.02441) 것이 도움이 될 수 있습니다. 인간은 그런 지루한 반복을 참지 못하지만 기계는 참을 수 있습니다. ### 유사점과 차이점 이해하기 연구자들은 여전히 머신러닝의 실수와 인간의 실수가 어디에서 다른지 이해하기 위해 고군분투하고 있습니다. AI의 이상한 점 중 일부는 사실 생각보다 인간과 더 비슷합니다. LLM에 대한 쿼리를 조금만 변경해도 매우 다른 응답이 나올 수 있는데, 이를 ' [프롬프트 민감도](https://arxiv.org/pdf/2311.07230)'라고 합니다. 하지만 설문조사 연구자라면 누구나 알 수 있듯이 인간도 이런 식으로 행동합니다. 여론 조사에서 질문의 문구가 답변에 큰 [영향을](https://psycnet.apa.org/record/1992-97329-001) 미칠 수 있습니다. 또한 학습된 데이터에서 가장 흔한 단어를 [반복하는](http://proceedings.mlr.press/v139/zhao21c/zhao21c.pdf) 편향이 있는 것으로 나타났는데, 예를 들어 '미국'과 같은 익숙한 지명을 이국적인 장소에 대한 질문에도 추측하는 경우가 있습니다. 아마도 이것은 기계가 질문을 통해 추론하기보다는 가장 먼저 떠오르는 것을 뱉어내는 인간의 '[가용성 휴리스틱](https://arxiv.org/pdf/2305.04400)'이 LLM에서 나타나는 예일 수 있습니다. 그리고 인간과 마찬가지로 일부 LLM은 긴 문서 중간에 [산만해져서](https://arxiv.org/html/2404.08865v1) 처음부터 끝까지 사실을 기억하는 데 어려움을 겪을 수 있습니다. 연구원들이 긴 텍스트에서 정보를 검색하는 [더 많은 예시를](https://www.anthropic.com/news/claude-2-1-prompting) 통해 훈련된 LLM이 정보를 균일하게 검색하는 데 더 능숙하다는 사실을 발견하면서 이 오류 모드를 개선하는 데 이미 진전이 있었습니다. 어떤 경우에는 LLM이 우리가 생각하는 것보다 더 인간처럼 행동한다는 점이 기이하기도 합니다. 예를 들어, 일부 연구자들은 LLM이 현금 보상을 제공하거나 죽음의 위협을 받을 때 더 잘 수행한다는 [가설을](https://minimaxir.com/2024/02/chatgpt-tips-analysis/) 테스트했습니다. 또한 LLM을 '[탈옥](https://www.usenix.org/system/files/sec24fall-prepub-1500-yu-zhiyuan.pdf)'(제작자의 명시적인 지시에 불복종하게 만드는 것)하는 가장 좋은 방법 중 일부는 다른 사람인 척하거나 요청이 농담이라고 말하는 등 인간이 서로에게 사용하는 사회 공학적인 트릭과 매우 유사하다는 사실도 밝혀졌습니다. 하지만 다른 효과적인 탈옥 기법들은 인간이라면 절대 속아 넘어가지 않을 것입니다. 한 그룹에서는 폭탄을 만드는 방법과 같은 위험한 질문을 할 때 [아스키 아트](https://en.wikipedia.org/wiki/ASCII_art) (단어나 그림처럼 보이는 기호의 구성)를 사용하면 LLM이 기꺼이 대답한다는 사실을 [발견했습니다](https://arxiv.org/abs/2402.11753). 인간은 때때로 무작위적이고 이해할 수 없으며 일관성 없는 실수를 할 수 있지만, 이러한 경우는 드물며 종종 더 심각한 문제를 나타내는 경우가 많습니다. 또한 이러한 행동을 보이는 사람을 의사 결정 위치에 두지 않는 경향이 있습니다. 마찬가지로, AI 의사결정 시스템은 실수로 인한 잠재적 파급력을 염두에 두면서 실제 능력에 맞는 애플리케이션에 국한시켜야 합니다. _이 에세이는 Nathan E. Sanders와 함께 작성했으며, 원래 [IEEE Spectrum에](https://spectrum.ieee.org/ai-mistakes-schneier) 게재되었습니다._