Abstract
Artificial intelligence (AI) for gastrointestinal endoscopy has shown remarkable performance in detecting and characterizing lesions. A randomized controlled trial reported that AI significantly reduced the miss rates for gastric neoplasms, but real-world implementation studies have shown inconsistent results. This discrepancy cannot be explained solely by technical limitations. Regardless of the AI capabilities, the visualization quality and systematic inspection remain fundamental prerequisites, and traditional apprenticeship training cannot be replaced by technology. This review examines AI implementation in endoscopy from a human-AI interaction perspective. Two cognitive phenomena are relevant: ‘automation neglect,’ where experienced endoscopists dismiss AI recommendations due to overconfidence or distrust, and ‘automation bias,’ where users over-rely on AI outputs, potentially missing unhighlighted lesions. Recent evidence raises concerns regarding deskilling, with studies showing decreased diagnostic performance after exposure to AI. A systematic analysis of 52 human-AI teaming studies showed that none achieved ideal complementarity, and collaboration sometimes decreased accuracy compared to humans alone. AI effectiveness varies according to operator expertise. High-performing endoscopists gain minimal benefit, while those with intermediate experience show the greatest improvement. Nevertheless, excessive false-positive alerts can negate benefits. Strategies to address these challenges include explainable AI, human-centered design, structured education, trust calibration, and expertise-tailored AI systems. Maintaining human expertise remains paramount. AI is a powerful tool, but clinicians must remain the final decision maker. Periodic AI-free practice may be necessary to preserve clinical competence.
소화기내시경 영역에서 인공지능(artificial intelligence, AI)은 빠르게 발전하였다. 특히 심층학습(deep-learning) 기반의 위장관 병변 검출(computer-aided detection) 시스템은 높은 성능을 보여주었다.1-4 무작위 대조연구에서 인공지능 보조 위내시경은 기존 내시경에 비해 위신생물의 miss rate를 현저히 감소시켰고(6.4% vs. 25.6%),5 대장내시경 영역에서도 무작위 대조연구 메타분석 결과 약 20%의 선종 검출률(adenoma detection rate) 향상과 선종 miss rate의 감소가 보고되었다.6,7 하지만 실제 임상 환경에서의 결과는 이러한 기대에 미치지 못하고 있다. 여러 메타분석에서 인공지능의 유의한 이득이 입증되지 않았으며,8,9 일부 연구에서는 오히려 진단 정확도가 감소하는 결과도 보고되었다.10 이러한 실험 환경과 실제 임상 사이의 차이는 기술적 한계만으로는 설명하기 어렵다. 인공지능의 성능이 아무리 우수하더라도 적절한 시야 확보와 체계적인 관찰은 성공적인 검사의 전제조건이며, 이를 위한 전통적인 도제식 교육(apprenticeship training)은 기술로 대체될 수 없다.11 기본적으로 화면에 보이는 병변을 발견하거나 진단하는 computer vision AI의 특성을 고려할 때 근본적인 내시경 검사의 질(quality)과 역량(competency)의 향상이 없이는 인공지능 보조 내시경의 도입의 성공을 보장하기 어렵다.12-15
국내에서는 식품의약품안전처가 2017년부터 인공지능 의료기기 허가 및 임상시험에 대한 가이드라인을 개발하여 현재까지10종을 발간하였으며, 2025년 1월에는 세계 최초로 생성형인공지능 의료기기 허가·심사 가이드라인을 제정하였다.16 위내시경 및 대장내시경 영역에서도 여러 인공지능 기기가 허가를 받아 임상에 도입되고 있다(Table 1).3,4,17 그러나 허가 기기의 증가에도 불구하고 임상 현장에서의 확산에는 여전히 장벽이 존재한다. 첫째, 수가 문제로, 현재 인공지능 내시경 보조진단은 정식 건강보험 급여가 아닌 '임시 등재' 상태이며, 선별급여수가가 약 1,200원 수준에 불과하여 대부분의 기업이 비급여를 선택하고 있다. 일본이 2024년 세계 최초로 인공지능 대장내시경에 건강보험 수가를 도입한 것과 대조적이다. 둘째, 장비접근성으로, 인공지능 내시경 기기 도입이 상급종합병원과 대형검진센터에 편중되어 있어 1차·2차 의료기관에서의 활용은 제한적이다. 셋째, 교육 부재로, 유럽소화기내시경학회(European Society of Gastrointestinal Endoscopy, ESGE)가 2025년 인공지능 내시경 교육 커리큘럼을 발표한 것과 달리, 국내에는 아직 인공지능 내시경 사용을 위한 표준화된 교육 프로그램이 마련되어 있지 않다. 넷째, 법적 책임의 불명확성으로, 인공지능오진 시 의사, 의료기관, 개발 기업 간 책임 분담에 대한 법적 기준이 확립되지 않아 임상 도입을 주저하게 하는 요인으로 작용하고 있다. 이러한 제도적 장벽과 더불어, 기존 연구들은 주로 인공지능의 기술적 성능과 알고리즘 개선에 초점을 맞추어왔다.2,18,19 그러나 임상 적용의 성패는 궁극적으로 인간과 인공지능의 상호작용(human-artificial intelligence interaction)에 달려 있다. 본 종설에서는 내시경 인공지능의 임상 적용 현황을 인간-인공지능 상호작용의 관점에서 고찰하고, ‘automation neglect’와 ‘automation bias’ 등 주요 인지적 현상을 분석하며, 이를 극복하기 위한 방안을 논의하고자 한다.
대장내시경 인공지능의 임상적 효용은 다수의 무작위 대조시험을 통해 검증되었다. Wang 등20의 연구는 대규모 무작위 대조시험에서 인공지능 보조 대장내시경군의 선종 검출률이 29.1%로 대조군 20.3%에 비해 유의하게 높음을 보고하였다. 이후 Repici 등21의 다기관 연구에서도 인공지능군의 선종 검출률이 54.8%로 대조군 40.4% 대비 14.4%의 절대적 향상을 보였으며, 이 연구는 미국 식품의약국(US Food and Drug Administration) 승인의 근거가 되었다. 선종 miss rate 또한 tandem 대장내시경 연구들에서 약 50% 감소하는 것으로 확인되었다.22 최근 메타분석에서는 28개 무작위 대조시험, 23,861명을 종합 분석하여 선종 검출률 20% 향상(relative risk 1.20, 95% confidence interval 1.14–1.27)과 선종 miss rate 55% 감소(relative risk 0.45, 95% confidence interval 0.37–0.54)를 보고하였다.7
상부위장관 내시경 분야에서도 인공지능의 효용이 입증되었다. Wu 등5의 tandem 무작위 대조시험에서 인공지능 보조 위내시경은 위 신생물 miss rate를 6.4%로 일반 내시경의 25.6%에 비해 유의하게 감소시켰다. Luo 등23의 무작위 대조시험에서도 인공지능의 상부위장관암 검출 민감도(lesion detection sensitivity)가 94.2%로 전문 내시경의와 동등하고 수련의(72.2%) 보다 유의하게 높음을 확인하였다. 국내에서도 합성곱 신경망(convolutional neural network) 기반 위 신생물 자동 발견 및 분류 시스템이 개발되어 내시경 전문의 수준의 진단 정확도를 달성하였으며,17,24-26 이를 기반으로 실시간 내시경 영상에서 위 신생물을 분류하는 기기들이 개발되어 임상 적용 가능성이 확인되었다.3,4,27
그러나 이러한 긍정적인 결과와 달리, 실제 임상 환경에서의 성적은 기대에 미치지 못하고 있다. Patel 등8은 8개 비무작위 연구의 메타분석에서 인공지능 사용군과 대조군 간 선종 검출률에 통계적으로 유의한 차이가 없음을 보고하였다(relative risk 1.11, 95% confidence interval 0.97–1.28). Wei 등9의 실제 임상 연구 메타분석에서도 선종 검출률 향상은 미미하였으며, 특히 GI Genius 시스템의 경우 전혀 차이가 관찰되지 않았다. 이러한 무작위 대조시험과 실제 임상 간의 성적 괴리는 연구환경에서의 Hawthorne 효과(연구 참여를 인지한 시술자가 평소보다 더 주의를 기울여 검사함), 과도한 위양성 경보(false positive alarm)로 인한 경보 피로(alert fatigue), 그리고 기존선종 검출률이 높은 내시경의에서의 천장 효과(baseline 성적이 높아 추가 향상의 여지가 제한됨) 등으로 설명된다.10 또한, 인공지능의 효과가 주로 임상적 의의가 불확실한 미세 선종검출 증가에서 기인하며, 진행성 선종이나 거치상 병변(sessile serrated lesion) 검출에는 유의한 향상이 없다는 점도 중요한 한계로 지적된다.7
인공지능의 임상적 효용을 저해하는 인간-인공지능 상호작용의 문제점으로 automation neglect와 automation bias가 있다.28-30 Automation neglect는 숙련된 내시경의가 자신의 판단에 대한 과신 또는 인공지능에 대한 불신으로 인해 인공지능 권고를 무시하는 현상이다. 바렛식도 인공지능 연구에서 전문가가 비전문가보다 정확한 인공지능 권고를 무시할 가능성이 유의하게 높았으며, 전체적으로 16%의 권고가 무시되었다.31 반대로 자동화 편향은 인공지능 출력에 과도하게 의존하여 인공지능이 표시하지 않은 병변을 놓치거나, 인공지능의 오류를 그대로 수용하는 현상이다. 유방촬영 인공지능 연구에서 인공지능이 잘못된 등급을 제시했을 때 영상의학과 전문의의 정확도가 80%에서 20–46%로 급락하였으며, 이러한 현상은 경험 수준에 관계없이 모든 전문의에게서 나타났다.32 두 경우 모두 인공지능의 잠재력이 낭비된다.
최근에는 기술 약화(deskilling)에 대한 우려도 제기되고있다. Budzyń 등33은 인공지능 노출 후 비-인공지능 대장내시경에서 선종 검출률이 28.4%에서 22.4%로 감소함을 보고하였다. 이는 인공지능 의존으로 인한 주의력 감소와 적극적 탐색 행동의 약화로 설명되며, 안구 추적 연구에서도 인공지능사용 시 안구 이동 거리가 감소하고 정상 점막을 병변으로 오인하는 비율이 증가함이 확인되었다.34 수련의 교육에서도 문제가 우려된다. 처음부터 인공지능과 함께 훈련받는 수련의가 인공지능 없이는 독립적인 진단 능력을 갖추지 못하는 현상, 즉 '기술 미형성(never-skilling)'이 발생할 수 있다.35 이외에도 인공지능의 오류나 편향을 그대로 학습하는 '오류 학습(mis-skilling)'도 제기되어, 인공지능 시대의 의학교육은 이러한 위험을 선제적으로 고려해야 한다(Table 2).35
인공지능의 효과가 시술자의 전문성 수준에 따라 다르게 나타나는 현상은 더닝-크루거 효과(Dunning-Kruger effect)로 설명될 수 있다.36 초보자는 자신의 한계를 인지하고 '모른다'는 것을 인정하기에 인공지능의 도움을 적극적으로 수용한다. 반면, 중간 수준의 숙련도를 가진 내시경의는 실제 역량 대비 과도한 자신감을 보이는 '초보자 거품(beginner's bubble)' 단계에 해당하여 인공지능 권고를 무시할 위험(automation neglect)이 가장 높다. 전문가는 자기 평가가 잘 보정되어 있어 인공지능으로부터의 이득도, 부정적 영향도 상대적으로 적다.
인간-인공지능 협업의 효과는 시술자의 전문성 수준에 따라 현저하게 다르게 나타난다. 초보자와 중간 수준의 내시경시술자가 인공지능으로부터 가장 큰 이득을 얻는 반면, 전문가는 이득이 미미하거나 오히려 부정적 영향을 받을 수 있다.10,37 위양성 경보는 전문가에게 경보 피로를 유발하여 불필요한 용종절제술 증가와 선종 검출률 감소 경향을 초래한다.38 Liu 등10은 52개 임상 연구의 체계적 분석에서 인간-인공지능협업이 이상적 상호보완성(complementarity)을 달성한 경우가 없었으며, 일부 조건에서는 협업이 오히려 의사 단독보다 진단 정확도를 감소시켰음을 보고하였다.
하지만 이것이 초보자에게 인공지능 사용을 금지해야 한다는 의미는 아니다. 스마트폰이나 컴퓨터가 없던 시대에도 우리는 연구와 의업을 수행하였고, 현재도 과거의 많은 업무가 기술로 대체되었음에도 직업의 본질과 존엄성을 유지하며 의업에 임하고 있다. 앞으로 중요한 것은 어떤 영역을 인공지능에 맡기고, 어떤 영역을 우리가 핵심적으로 담당할 것인지를 현명하게 결정하는 일이 될 것이다(Table 2). 구체적으로, 장시간 시술 중 주의력 유지가 필요한 반복적 감시 과제, 패턴인식 기반의 1차 선별, 병변 크기나 관찰 시간 등 표준화된 정량 지표의 측정, 시술 보고서 초안 생성과 같은 문서화 업무는 인공지능의 도움을 받을 수 있다. 반면, 점막 세정과 장신전 등 시야를 확보하고 체계적으로 관찰하는 기본 술기, 환자의 병력과 위험 요인을 종합하는 임상적 맥락 통합, AI 신뢰도가 낮은 경계성 병변에 대한 최종 판단, 환자와의 소통 및 공유 의사결정, 그리고 AI 학습 데이터에 포함되지 않은 예외 상황에 대한 임기응변은 인간 내시경의사가 핵심적으로 담당해야 할 영역이다. 특히 AI는 화면에 보이는 것만 분석할수 있으므로, 보이지 않는 곳을 보이게 만드는 것은 전적으로 인간의 몫이라는 점이 중요하다.
인간-인공지능 상호작용 문제를 극복하기 위한 방안으로 설명 가능한 인공지능(explainable AI), 신뢰 보정(trust calibration), 전문성 맞춤형 적용(expertise-tailored AI systems), 그리고 구조화된 교육이 제시되고 있다. 기존의 심층학습 인공지능은 왜 특정 병변을 암으로 판단했는지 그 근거를 제시하지 못하는 한계가 있었다. 이를 극복하기 위해 개발된 설명 가능한 조기 위암 진단 인공지능은 두 가지 기술을 활용하였다. 첫째로, domain knowledge 기반 특징 추출은 내시경 전문의가 실제 진단 시 주목하는 임상적 특징들, 즉 병변의 색조 변화(발적, 퇴색), 표면 요철(융기, 함몰), 경계의 명확성, 주변 점막과의 대비 등을 인공지능이 명시적으로 인식하고 수치화하도록 설계한 방법이다. 이를 통해 인공지능의 판단 근거가 내시경의사의 사고 과정과 일치하게 되어 결과의 해석이 용이해진다. 둘째로, saliency map (현저성 지도)은 인공지능이 진단을 내릴 때 영상의 어느 부분에 주목했는지를 heat map 형태로 시각화하는 기술이다. 병변 영역이 붉게 강조되고 정상 점막은 푸르게 표시되어, 임상의는 인공지능이 올바른 위치를 근거로 판단했는지 직관적으로 확인할 수 있다. 이 연구에서 설명 가능한 인공지능은 의사 대비 우수한 진단 정확도를 달성하였으며, 기존 블랙박스 인공지능 대비 임상의의 신뢰도와 수용도를 유의하게 향상시켰다.39 그러나 복잡하거나 모순되는 설명은 오히려 신뢰를 저하시킬 수 있어 주의가 필요하다.40
신뢰 보정은 과신뢰와 과소신뢰를 모두 방지하는 것을 목표로 한다. 대장 용종 광학 진단 연구에서 인공지능 예측이 진단 정확도를 69.3%에서 76.6%로 향상시켰으나, 적절한 신뢰(올바른 인공지능 예측을 수용하거나 오류 예측을 거부하는 것)는 48.7%에 불과하였다.41 인공지능이 예측의 신뢰도 점수를 함께 제공하면, 시술자는 신뢰도가 높은 예측에서는 인공지능 권고를 따르고 신뢰도가 낮은 예측에서는 자체 판단에 무게를 두는 선택적 수용이 가능해져 전반적인 진단 정확도가 향상되는 경향을 보였다.42
인공지능의 효과는 시술자의 전문성 수준에 따라 현저하게 다르게 나타나므로 맞춤형 적용이 필요하다. 다기관 무작위대조시험에서 인공지능 보조 초보 내시경의사의 선종 miss rate가 43.69% 에서 18.82%로 감소하여 전문가 수준(26.97%)과 비교하여 비열등하였으며,37 이는 초보자가 인공지능으로부터 가장 큰 이득을 얻어 전문가와의 격차가 해소됨을 의미한다. 두 무작위 대조시험의 통합 분석에서도 인공지능 사용 후에는 내시경의 경험 수준에 따른 선종 검출률 차이가 사라져, 인공지능이 시술자 간 수행능력 격차를 줄이는 '평준화(equalizing)' 효과를 가짐을 시사하였다.21
주요 국제학회들은 내시경 인공지능의 임상 적용에 관한 진료지침을 발표하고 있으나, 동일한 근거를 검토한 것에 비해(Table 3) 권고 수준에는 차이가 있다(Table 4). 이는 대리결과(surrogate outcome)인 선종 검출률과 환자중심결과(patient-important outcome)인 대장암 발생/사망 간의 가치평가 방식 차이를 반영한다.
유럽소화기내시경학회(ESGE)는 2022년 position statement에서 위장관 신생물 검출 및 관리를 위한 인공지능의 기대 성능 기준을 정의하였고,44 2025 년에는 44개 무작위 대조시험을 메타분석하여 대장내시경에서 컴퓨터 보조 검출(computer-aided detection, CADe) 사용을 68.4%의 패널투표로 권고하였다.45 선종 검출률이 44.7%로 대조군 36.7%에 비해 높았으나(relative risk 1.21, 95% confidence interval 1.15–1.28), 중요 결과에 대한 GRADE 근거 확실성이 매우 낮음–낮음 수준이어서 약한 권고에 그쳤다. 동시에 인공지능의 안전하고 효과적인 사용을 위한 교육 커리큘럼도 발표하여, 인공지능 사용 전 기본 술기 역량 확보와 인지 편향 인식 및 과의존 방지의 중요성을 강조하였다.11
미국소화기학회(American Gastroenterological Association)는 2025년 living clinical practice guideline 에서 동일한 근거를 검토하였으나, 중요 결과에 대한 근거 확실성이 매우 낮다는 이유로 CADe 보조 대장내시경에 대해 권고 또는 비권고 결정을 유보하였다.46 선종 검출률 8% 증가와 진행성 선종/거치상 병변검출률 2% 증가를 인정하면서도, 10년 microsimulation modeling에서 10,000 명당 대장암 11건 및 대장암 사망 2건 감소라는 이점과 추가 감시 대장내시경 635건 증가라는 부담 간의 상충 관계를 지적하였다.46 또한, 검출되는 대부분의 용종이악성 잠재력이 낮은 미세용종(<5 mm) 이며, 다양한 인구집단과 지역사회 환경에서의 데이터가 부족하다는 점도 지적하였다.
미국소화기내시경학회(American Society for Gastrointestinal Endoscopy)는 2025년 인공지능 태스크포스 합의문을 통해 수정 델파이 방법으로 인공지능이 내시경의 수행능력을 증강하고 품질 지표를 재정의할 것이며, 투명성과 해석가능성이 필요하고 임상의의 인공지능 역량이 요구된다는 등 10개 합의문을 도출하였다.47 세계내시경기구(World Endoscopy Organization)는 2023년 대장내시경 인공지능 도입의 이점과 장벽에 관한 position statement를 발표하여 비용효과성에 초점을 맞추었고,48 2025년에는 데이터 거버넌스, 의료법적 함의, 형평성과 편향에 관한 국제 합의문을 발표하여 법적· 윤리적 과제를 다루었다.49 데이터 거버넌스, 의료법적 함의, 형평성과 편향의 3개 영역에서 10개 합의문을 도출하였으며, 인공지능 관련 진단 오류에 대한 책임 문제가 아직 법적으로 검증되지 않았음을 지적하였다. 특히 저중소득국가(low- and middle-income countries, LMIC)를 위한 모바일/오프라인 인공지능 도구, 지역 유병 질환에 대한 훈련, 간소화된 규제체계의 필요성을 강조하였다. 일본소화기내시경학회(Japan Gastroenterological Endoscopy Society)는 2024–2025년 position statement 에서 수정 델파이 방법으로 9개 합의문을 도출하였으며, 의사가 진단에 대한 책임을 지며 인공지능은 보조적으로 사용해야 한다는 점을 명시하였다.50
국내에서는 아직 내시경 인공지능에 대한 공식 진료지침이 발표되지 않았다. 2025년 아시아 내시경의사 293 명을 대상으로 한 조사에서 42%가 인공지능 사용 경험이 없었으며, 도입장벽으로 규제 승인 기기의 가용성(82.3%), 기기 접근성(79.5%), 진료지침 부재(74.1%) 등이 조사되었다.51
현재 내시경 인공지능은 주로 합성곱 신경망 기반의 영상분석에 집중되어 있으나, 향후에는 multimodal AI, 대규모언어 모델(large language model, LLM), 그리고 자율 내시경(autonomous endoscopy)으로 확장될 것으로 전망된다. CNN 기반 영상 모델은 패턴 인식에 대해 높은 성능을 보이지만, 데이터 유형이 변경되면 성능이 저하되는 한계가 있다. 이를 극복하기 위해 내시경 영상, 임상 정보, 병리 소견 등 다양한 데이터 유형을 통합하는 multimodal AI 연구가 진행되고 있다. 조기 위암의 림프절 전이 예측 연구에서 내시경 영상과 실제 임상 데이터를 통합한 multimodal 모델이 영상 단독 모델이나 임상 데이터 단독 모델보다 우수한 예측 성능을 보여, 향후 치료 전략 결정에 기여할 가능성이 제시되었다.52 특히 영상과 언어를 통합 처리하는 비전-언어 모델(vision-language model)은 내시경 영상 분석과 임상 추론을 동시에 수행할 수 있는 잠재력을 가지고 있으나, 현재 범용 모델의 내시경 진단 성능은 전문 CNN 모델에 비해 아직 제한적이어서 추가적인 최적화 연구가 필요하다.53-55
LLM은 의료 지식의 전파, 상담 권고 제공, 시술 보고서 자동 생성, 복잡한 질환의 추정 진단에 이르기까지 다양한 임상적 역할을 수행할 잠재력을 보여주고 있다. 소화기내과 영역에서 LLM의 역할을 분석한 체계적 문헌고찰에 따르면, 21개 연구에서 지식 기반 응답 평가, 문서 요약 및 자동 초안 생성, 언어 장벽 극복, 연구 질문 도출, 인과 추론을 포함한 복합과제 수행 등의 잠재적 역할을 확인하였다.55 57개 연구를 분석한 또 다른 체계적 문헌고찰에서도 LLM이 내시경 보고서, 병리 보고서, 환자 기록 등 비정형 의료 데이터에서 질환 특성을 높은 정밀도로 추출할 수 있음을 확인하였다.56 맞춤형 LLM을 소화기내과 임상 질문에 적용한 연구에서는, 실시간 외부 데이터 검색이 가능한 검색 증강 생성(retrieval-augmented generation, RAG) 기능을 갖춘 모델이 전문의 수준에 근접한 성능을 보여 환자 상담 등 특화된 업무를 지원할 수 있는 가능성이 제시되었다.57 최근에는 LLM을 임상 현장에 통합하기 위한 구체적인 프레임워크도 제안되어, 환각(hallucination) 완화 전략, 전자의무기록(electronic health record, EHR) 연동, 임상 워크플로우에 맞는 사용자 인터페이스 설계 등 실무적 고려사항이 논의되고 있다.58
내시경 인공지능에 대한 환자 인식과 수용도는 임상 도입의 중요한 고려사항이다. 2024년 Mayo Clinic 연구에서 대장내시경을 받은 508명의 환자를 대상으로 조사한 결과, 인공지능 보조 내시경에 대해 잘 알고 있다고 응답한 환자는 15.7%에 불과하였고, 37.8%는 자신의 검사에 인공지능이 사용되는지 여부를 알지 못하였다.59 환자보다 의사가 인공지능에 의한 진료 질 향상을 더 긍정적으로 평가하여(81.3% vs. 64.9%, p=0.017), 환자 수용도를 높이기 위한 적극적인 정보 제공이 필요함을 시사하였다.60 문화권에 따른 차이도 관찰되어, 아시아 국가들이 서구 국가들에 비해 의료 인공지능에 대한 신뢰도가 높은 것으로 조사되었다.61 현재 대부분의 학회 가이드라인에서는 인공지능 사용에 대한 동의서 요건을 명시하지 않고있으나, 미국 성인 2,021명을 대상으로 한 설문조사에서 약 63%가 인공지능 사용 시 고지받는 것이 매우 중요하다고 응답하여 향후 동의서 절차의 개선이 필요하다.62
인공지능의 적용 범위는 병변 검출을 넘어 치료 내시경의 실시간 보조 영역으로 확장되고 있다. 내시경 점막하 박리술(endoscopic submucosal dissection, ESD) 에서 딥러닝 기반 혈관 검출 시스템은 시술 중 출혈 위험 혈관을 85%의 발견률로 인식하였으며, 인공지능 보조 시 내시경의사의 혈관 발견률이 56.4%에서 72.4%로 향상되었다.63 또한 ESD 시술 단계를 실시간으로 인식하는 시스템은 동물실험에서 91%의 정확도와 초당 47프레임의 처리 속도를 달성했다.64 그러나 일반적인 용종절제술이나 내시경 지혈술에 대한 실시간 인공지능 가이드 연구는 아직 부족하며, 치료 내시경에서의 인공지능 적용은 대부분 기술 검증 단계에 머물러 있어 임상 결과를 평가하는 전향적 연구가 필요하다.
최근에는 단일 작업에 특화된 인공지능을 넘어 범용 인공지능 에이전트(general-purpose AI agent)로의 패러다임 전환이 진행되고 있다. 범용 에이전트는 자연어 명령을 이해하고, 다양한 도구를 활용하며, 복잡한 다단계 작업을 자율적으로 수행할 수 있는 시스템이다.65 내시경 분야에서 이러한 에이전트는 검사 영상 분석, 시술 보고서 자동 생성, 환자 병력 요약, 문헌 검색 및 임상 권고안 도출을 하나의 통합된 워크플로우 내에서 수행할 수 있다. 그러나 범용 에이전트의 임상 적용에는 환각의 위험이 다단계 작업에서 증폭될 수 있고, 에이전트의 행동이 예측 불가능하여 오류 발생 시 원인 추적이 어려우며, 자율적 의사결정에 따른 책임 소재가 모호해진다.66 또한, automation bias와 deskilling이 범용 에이전트 환경에서 더욱 심화될 우려가 있다. 따라서 범용 에이전트의 내시경 영역 도입을 위해서는 안전성 프레임워크, 인간 감독 체계, 그리고 규제 기준의 정립이 선행되어야 한다.
한편, 본고에서 논의한 인간-인공지능 상호작용 문제는 자율 인공지능(autonomous AI)에 대한 관심을 촉발하고 있다. 최근 대장 용종 광학 진단 무작위 대조시험에서 자율 인공지능(77.2%)이 인간-인공지능 협업(72.1%) 보다 우수한 진단 정확도를 보여, 인간이 개입할 때 오히려 성능이 저하될 수 있음을 시사하였다.67,68 로봇 내시경 분야에서도 자기 유도 내시경(magnetically guided endoscope)과 인공지능을 결합하여 대장내시경 항법의 기술적 난이도를 낮추는 연구가 진행되고 있으며, 이는 검사 역량 확대와 접근성 향상에 기여할 것으로 기대된다.69
한편, 병변 검출 성능 외에 검사 효율성에 미치는 영향도 중요한 고려사항이다. 28개 무작위 대조시험을 포함한 최근 메타분석에서 인공지능 보조 대장내시경의 회수 시간 증가는 평균 9–20초에 불과하여 임상적으로 의미 있는 변화가 없었다.7 오히려 인공지능은 '지치지 않는 제2의 관찰자(tireless second observer)' 로서 장시간 시술 중 발생하는 피로로 인한 검출률 저하를 방지하는 효과가 보고되었다.70 인공지능 미사용 시 오후에 선종 검출률이 유의하게 감소하는 반면, 인공지능 사용 시에는 이러한 감소 추세가 관찰되지 않았다.70 또한, 광학 진단을 지원하는 computer-aided diagnosis (CADx) 시스템은 미세 용종의 조직학적 특성을 실시간으로 예측하여 과형성 용종에 대한 불필요한 용종절제술을 약 50% 감소시킬 수 있으며, 이는 검사당 비용 절감과 시술자 부담 감소로 이어진다.6 국내 다기관 연구에서도 인공지능이 선종 검출률을 향상시키면서 회수 시간의 유의한 증가 없이 효율성을 유지함이 확인되었다.71 다만, 이러한 효율성 향상이 수가에 반영되지 않는 현행 제도 하에서는 의료기관의 도입 유인이 제한적이므로, 일본의 2024년 세계 최초 인공지능 대장내시경 급여 도입 사례를 참고한 정책적 지원이 필요하다.72
인공지능의 효과적인 임상 적용을 위해서는 기술적 발전과 함께 이를 뒷받침하는 인프라 구축도 필수적이다. 다양한 부서의 의료 영상을 통합 관리하는 기업 영상 시스템(enterprise imaging)과 공급자 중립 아카이브(vendor-neutral archive, VNA)의 도입은 내시경 영상을 포함한 대용량 non-DICOM 데이터의 표준화된 저장과 공유를 가능하게 하며, 축적된 대규모 데이터는 인공지능 모델 학습의 기반이 될수 있다.
그러나 이러한 차세대 기술들의 임상 적용에는 과제가 남아 있다. LLM의 환각(hallucination)과 편향 증폭, 자율 시스템의 법적 책임 소재와 안전성, 대규모 영상 데이터의 프라이버시 보호 등이 해결되어야 한다. 본고에서 논의한 인간-인공지능 상호작용 문제는 기술이 발전해도 본질적으로 사라지지 않으며, 오히려 시스템이 복잡해질수록 새로운 형태로 나타날 수 있어 지속적인 관심이 필요하다.
내시경 인공지능이 임상에서 기대만큼의 효과를 보이지 못하는 이유는 기술의 한계가 아니라 그것을 사용하는 인간에게 있다. 본고에서 살펴본 바와 같이, 인공지능을 맹신하거나 무시하는 양극단의 반응, 그리고 인공지능에 의존하며 잃어가는 고유의 진단 역량은 모두 인간 측의 문제이다.
인공지능은 '병변을 더 잘 찾고 육안진단 할 수 있는가'라는 질문에 답을 주었지만, 동시에 '인간 내시경 의사의 본질적 역할은 무엇인가'라는 더 근본적인 질문을 우리에게 던지고있다. 인간과 인공지능의 이상적인 협업은 저절로 이루어지지 않으며, 의도적인 시스템 설계, 체계적인 교육, 그리고 끊임없는 성찰을 통해서만 달성될 수 있을 것이다.
Notes
References
1. Gong EJ, Woo J, Lee JJ, Bang CS. Role of artificial intelligence in gastric diseases. World J Gastroenterol 2025;31:111327.
10.3748/wjg.v31.i37.111327
41025012
PMC12476687
2. Gong EJ, Bang CS. Artificial intelligence in colonoscopy: polyp fiction or clinical reality? Clin Endosc 2025;58:784-786.
10.5946/ce.2025.103
40899245
PMC12489552
3. Gong EJ, Bang CS, Lee JJ. Computer-aided diagnosis in real-time endoscopy for all stages of gastric carcinogenesis: development and validation study. United European Gastroenterol J 2024;12: 487-495.
10.1002/ueg2.12551
38400815
PMC11091781
4. Gong EJ, Bang CS, Lee JJ, et al. Deep learning-based clinical decision support system for gastric neoplasms in real-time endoscopy: development and validation study. Endoscopy 2023;55: 701-708.
10.1055/a-2031-0691
36754065
5. Wu L, Shang R, Sharma P, et al. Effect of a deep learning-based system on the miss rate of gastric neoplasms during upper gastrointestinal endoscopy: a single-centre, tandem, randomised controlled trial. Lancet Gastroenterol Hepatol 2021;6:700-708.
10.1016/S2468-1253(21)00216-8
34297944
6. Hassan C, Spadaccini M, Mori Y, et al. Real-time computer-aided detection of colorectal neoplasia during colonoscophy: a systematic review and meta-analysis. Ann Intern Med 2023; 176:1209-1220.
10.7326/M22-3678
37639719
7. Makar J, Abdelmalak J, Con D, Hafeez B, Garg M. Use of artificial intelligence improves colonoscopy performance in adenoma detection: a systematic review and meta-analysis. Gastrointest Endosc 2025;101:68-81.e8.
10.1016/j.gie.2024.08.033
39216648
8. Patel HK, Mori Y, Hassan C, et al. Lack of effectiveness of computer aided detection for colorectal neoplasia: a systematic review and meta-analysis of nonrandomized studies. Clin Gastroenterol Hepatol 2024;22:971-980.e15.
10.1016/j.cgh.2023.11.029
38056803
9. Wei MT, Fay S, Yung D, Ladabaum U, Kopylov U. Artificial intelligence-assisted colonoscopy in real-world clinical practice: a systematic review and meta-analysis. Clin Transl Gastroenterol 2024;15:e00671.
10.14309/ctg.0000000000000671
38146871
PMC10962886
10. Liu P, Zhang J, Chen S, Chen S. Human-AI teaming in healthcare: 1+ 1> 2? NPJ Artif Intell 2025;1:47.
10.1038/s44387-025-00052-4
11. Mori Y, Kopylov U, Sinonquel P, et al. Curriculum for safe and effective use of artificial intelligence in endoscopy: European Society of Gastrointestinal Endoscopy (ESGE) position statement. Endoscopy 2025 Dec 3. doi: 10.1055/a-2742-4342.
10.1055/a-2742-4342
41338282
12. Bang CS. Deep Learning in Upper Gastrointestinal Disorders: Status and Future Perspectives. Korean J Gastroenterol 2020; 75:120-131.
10.4166/kjg.2020.75.3.120
32209800
13. Bang CS. Artificial intelligence in the analysis of upper gastrointestinal disorders. Korean J Helicobacter Up Gastrointest Res 2021;21:300-310.
10.7704/kjhugr.2021.0030
14. Yang YJ, Bang CS. Application of artificial intelligence in gastroenterology. World J Gastroenterol 2019;25:1666-1683.
10.3748/wjg.v25.i14.1666
31011253
PMC6465941
15. Gong EJ, Bang CS. Interpretation of medical images using artificial intelligence: current status and future perspectives. Korean J Gastroenterol 2023;82:43-45.
10.4166/kjg.2023.071
PMC12285511
16. https://www.mfds.go.kr/brd/m_1060/view.do?seq=15628.
17. Gong EJ, Bang CS, Lee JJ, et al. Clinical decision support system for all stages of gastric carcinogenesis in real-time endoscopy: model establishment and validation study. J Med Internet Res 2023;25:e50448.
10.2196/50448
37902818
PMC10644184
18. Gong EJ, Bang CS. Advancements and challenges in gastrointestinal imaging. World J Clin Cases 2024;12:6591-6594.
10.12998/wjcc.v12.i33.6591
39600475
PMC11514342
19. Cho BJ, Bang CS. Artificial intelligence for the determination of a management strategy for diminutive colorectal polyps: hype, hope, or help. Am J Gastroenterol 2020;115:70-72.
10.14309/ajg.0000000000000476
31770118
20. Wang P, Berzin TM, Glissen Brown JR, et al. Real-time automatic detection system increases colonoscopic polyp and adenoma detection rates: a prospective randomised controlled study. Gut 2019;68:1813-1819.
10.1136/gutjnl-2018-317500
30814121
PMC6839720
21. Repici A, Badalamenti M, Maselli R, et al. Efficacy of real-time computer-aided detection of colorectal neoplasia in a randomized trial. Gastroenterology 2020;159:512-520.e7.
10.1053/j.gastro.2020.04.062
32371116
22. Wallace MB, Sharma P, Bhandari P, et al. Impact of artificial intelligence on miss rate of colorectal neoplasia. Gastroenterology 2022;163:295-304.e5.
10.1053/j.gastro.2022.03.007
35304117
23. Luo H, Xu G, Li C, et al. Real-time artificial intelligence for detection of upper gastrointestinal cancer by endoscopy: a multicentre, case-control, diagnostic study. Lancet Oncol 2019;20: 1645-1654.
10.1016/S1470-2045(19)30637-0
31591062
24. Cho BJ, Bang CS, Park SW, et al. Automated classification of gastric neoplasms in endoscopic images using a convolutional neural network. Endoscopy 2019;51:1121-1129.
10.1055/a-0981-6133
31443108
25. Cho BJ, Bang CS, Lee JJ, Seo CW, Kim JH. Prediction of submucosal invasion for gastric neoplasms in endoscopic images using deep-learning. J Clin Med 2020;9:1858.
10.3390/jcm9061858
32549190
PMC7356204
26. Bang CS, Lim H, Jeong HM, Hwang SH. Use of endoscopic images in the prediction of submucosal invasion of gastric neoplasms: automated deep learning model development and usability study. J Med Internet Res 2021;23:e25167.
10.2196/25167
33856356
PMC8085753
27. Gong EJ, Bang CS, Lee JJ. Edge artificial intelligence device in real-time endoscopy for classification of gastric neoplasms: development and validation study. Biomimetics (Basel) 2024;9: 783.
10.3390/biomimetics9120783
39727787
PMC11672907
28. Campion JR, O'Connor DB, Lahiff C. Human-artificial intelligence interaction in gastrointestinal endoscopy. World J Gastrointest Endosc 2024;16:126-135.
10.4253/wjge.v16.i3.126
38577646
PMC10989254
29. Parasuraman R, Manzey DH. Complacency and bias in human use of automation: an attentional integration. Hum Factors 2010;52:381-410.
10.1177/0018720810376055
21077562
30. Goddard K, Roudsari A, Wyatt JC. Automation bias: a systematic review of frequency, effect mediators, and mitigators. J Am Med Inform Assoc 2012;19:121-127.
10.1136/amiajnl-2011-000089
21685142
PMC3240751
31. Roser D, Meinikheim M, Muzalyova A, et al. Artificial intelligence-assisted endoscopy and examiner confidence: a study on human-artificial intelligence interaction in Barrett's esophagus (with video). DEN Open 2026;6:e70150.
10.1002/deo2.70150
40548292
PMC12178752
32. Dratsch T, Chen X, Rezazade Mehrizi M, et al. Automation bias in mammography: the impact of artificial intelligence bi-rads suggestions on reader performance. Radiology 2023;307:e222176.
10.1148/radiol.222176
37129490
33. Budzyń K, Romańczyk M, Kitala D, et al. Endoscopist deskilling risk after exposure to artificial intelligence in colonoscopy: a multicentre, observational study. Lancet Gastroenterol Hepatol 2025;10:896-903.
10.1016/S2468-1253(25)00133-5
40816301
34. Troya J, Fitting D, Brand M, et al. The influence of computer-aided polyp detection systems on reaction time for polyp detection and eye gaze. Endoscopy 2022;54:1009-1014.
10.1055/a-1770-7353
35158384
PMC9500006
35. Abdulnour RE, Gin B, Boscardin CK. Educational strategies for clinical supervision of artificial intelligence use. N Engl J Med 2025;393:786-797.
10.1056/NEJMra2503232
40834302
36. Guan J, He X, Su Y, Zhang XA. The Dunning-Kruger effect and artificial intelligence: knowledge, self-efficacy and acceptance. Manag Decis 2025;63:3786-3802.
10.1108/MD-06-2023-0893
37. Yao L, Li X, Wu Z, et al. Effect of artificial intelligence on novice-performed colonoscopy: a multicenter randomized controlled tandem study. Gastrointest Endosc 2024;99:91-99.e9.
10.1016/j.gie.2023.07.044
37536635
38. Chung GE, Lee J, Lim SH, et al. A prospective comparison of two computer aided detection systems with different false positive rates in colonoscopy. NPJ Digit Med 2024;7:366.
10.1038/s41746-024-01334-y
39702474
PMC11659580
39. Dong Z, Wang J, Li Y, et al. Explainable artificial intelligence incorporated with domain knowledge diagnosing early gastric neoplasms under white light endoscopy. NPJ Digit Med 2023;6:64.
10.1038/s41746-023-00813-y
37045949
PMC10097818
40. Rosenbacke R, Melhus Å, McKee M, Stuckler D. How explainable artificial intelligence can increase or decrease clinicians' trust in ai applications in health care: systematic review. JMIR AI 2024;3:e53207.
10.2196/53207
39476365
PMC11561425
41. van der Zander QEW, Roumans R, Kusters CHJ, et al. Appropriate trust in artificial intelligence for the optical diagnosis of colorectal polyps: the role of human/artificial intelligence interaction. Gastrointest Endosc 2024;100:1070-1078.e10.
10.1016/j.gie.2024.06.029
38942330
42. Barua I, Wieszczy P, Kudo SE, et al. Real-time artificial intelligence-based optical diagnosis of neoplastic polyps during colonoscopy. NEJM Evid 2022;1:EVIDoa2200003.
10.1056/EVIDoa2200003
38319238
43. Ahmad OF. Endoscopist deskilling: an unintended consequence of AI-assisted colonoscopy? Lancet Gastroenterol Hepatol 2025; 10:872-873.
10.1016/S2468-1253(25)00164-5
40816300
44. Messmann H, Bisschops R, Antonelli G, et al. Expected value of artificial intelligence in gastrointestinal endoscopy: European Society of Gastrointestinal Endoscopy (ESGE) position statement. Endoscopy 2022;54:1211-1231.
10.1055/a-1950-5694
36270318
45. Bretthauer M, Ahmed J, Antonelli G, et al. Use of computer-assisted detection (CADe) colonoscopy in colorectal cancer screening and surveillance: European Society of Gastrointestinal Endoscopy (ESGE) position statement. Endoscopy 2025;57: 667-673.
10.1055/a-2543-0370
40148135
46. Sultan S, Shung DL, Kolb JM, et al. AGA living clinical practice guideline on computer-aided detection-assisted colonoscopy. Gastroenterology 2025;168:691-700.
10.1053/j.gastro.2025.01.002
40121061
47. Parasa S, Berzin T, Leggett C, et al. Consensus statements on the current landscape of artificial intelligence applications in endoscopy, addressing roadblocks, and advancing artificial intelligence in gastroenterology. Gastrointest Endosc 2025;101: 2-9.e1.
10.1016/j.gie.2023.12.003
38639679
48. Mori Y, East JE, Hassan C, et al. Benefits and challenges in implementation of artificial intelligence in colonoscopy: World Endoscopy Organization position statement. Dig Endosc 2023; 35:422-429.
10.1111/den.14531
36749036
PMC12136278
49. Ahmad OF, Mori Y, Bretthauer M, et al. The legal and ethical framework for artificial intelligence in gastrointestinal endoscopy: a World Endoscopy Organization international consensus statement. Ann Intern Med 2025 Dec 9. doi: 10.7326/ANNALS-25-03415.
10.7326/ANNALS-25-03415
41359967
50. Mori Y, Ishihara R, Ogata H, et al. Artificial intelligence in gastrointestinal endoscopy: the Japan Gastroenterological Endoscopy Society position statements. Dig Endosc 2025;37:1116-1122.
10.1111/den.15075
40586266
51. Quek SXZ, Koo CS, Liu L, et al. Survey on the perceptions of Asian endoscopists to artificial intelligence. Commun Med (Lond) 2025; 5:313.
10.1038/s43856-025-01030-2
40731059
PMC12307732
52. Kang D, Jeon HJ, Kim JH, et al. Enhancing lymph node metastasis risk prediction in early gastric cancer through the integration of endoscopic images and real-world data in a multimodal AI model. Cancers (Basel) 2025;17:869.
10.3390/cancers17050869
40075715
PMC11898873
53. Horiuchi Y, Hirasawa T, Fujisaki J. Application of artificial intelligence for diagnosis of early gastric cancer based on magnifying endoscopy with narrow-band imaging. Clin Endosc 2024; 57:11-17.
10.5946/ce.2023.173
38178327
PMC10834286
54. Safavi-Naini SAA, Ali S, Shahab O, et al. Benchmarking proprietary and open-source language and vision-language models for gastroenterology clinical reasoning. NPJ Digit Med 2025;8:797.
10.1038/s41746-025-02174-0
41310206
PMC12749705
55. Gong EJ, Bang CS, Lee JJ, et al. Large Language models in gastroenterology: systematic review. J Med Internet Res 2024;26: e66648.
10.2196/66648
39705703
PMC11699489
56. Omar M, Nassar S, SharIf K, et al. Emerging applications of NLP and large language models in gastroenterology and hepatology: a systematic review. Front Med (Lausanne) 2024;11:1512824.
10.3389/fmed.2024.1512824
39917263
PMC11799763
57. Gong EJ, Bang CS, Lee JJ, et al. The potential clinical utility of the customized large language model in gastroenterology: a pilot study. Bioengineering (Basel) 2024;12:1.
10.3390/bioengineering12010001
39851275
PMC11760845
58. Berry P, Dhanakshirur RR, Khanna S. Utilizing large language models for gastroenterology research: a conceptual framework. Therap Adv Gastroenterol 2025;18:17562848251328577.
10.1177/17562848251328577
40171241
PMC11960180
59. Schmidt KA, Sood S, Dilmaghani S, et al. Understanding patients' current acceptability of artificial intelligence during colonoscopy for polyp detection: a single-center study. Tech Innov Gastrointest Endosc 2025;27:250905.
10.1016/j.tige.2024.250905
60. van der Zander QEW, van der Ende-van Loon MCM, Janssen JMM, et al. Artificial intelligence in (gastrointestinal) healthcare: patients' and physicians' perspectives. Sci Rep 2022;12:16779.
10.1038/s41598-022-20958-2
36202957
PMC9537305
61. Gillespie N, Lockey S, Curtis C, Pool J, Akbari A. Trust in artificial intelligence: a global study. The University of Queensland; KPMG Australia 2023 Feb 22. doi: 10.14264/00d3c94.
10.14264/00d3c94
62. Platt J, Nong P, Carmona G, Kardia S. Public attitudes toward notification of use of artificial intelligence in health care. JAMA Netw Open 2024;7:e2450102.
10.1001/jamanetworkopen.2024.50102
39661391
PMC11635529
63. Scheppach MW, Mendel R, Muzalyova A, et al. Use of artificial intelligence in submucosal vessel detection during third-space endoscopy. Endoscopy 2025;57:760-766.
10.1055/a-2534-1164
39909396
64. Cao J, Yip HC, Chen Y, et al. Intelligent surgical workflow recognition for endoscopic submucosal dissection with real-time animal study. Nat Commun 2023;14:6676.
10.1038/s41467-023-42451-8
37865629
PMC10590425
65. Xi Z, Chen W, Guo X, et al. The rise and potential of large language model based agents: a survey. Sci China Inf Sci 2025;68:121101.
10.1007/s11432-024-4222-0
66. Singhal K, Tu T, Gottweis J, et al. Toward expert-level medical question answering with large language models. Nat Med 2025; 31:943-950.
10.1038/s41591-024-03423-7
39779926
PMC11922739
67. Djinbachian R, Haumesser C, Taghiakbari M, et al. Autonomous artificial intelligence vs artificial intelligence-assisted human optical diagnosis of colorectal polyps: a randomized controlled trial. Gastroenterology 2024;167:392-399.e2.
10.1053/j.gastro.2024.01.044
38331204
68. Mori Y, Hassan C. Computer-aided diagnosis of colorectal polyps: assisted or autonomous? Clin Endosc 2025;58:514-517.
10.5946/ce.2024.338
40400307
PMC12314623
69. Martin JW, Scaglioni B, Norton JC, et al. Enabling the future of colonoscopy with intelligent and autonomous magnetic manipulation. Nat Mach Intell 2020;2:595-606.
10.1038/s42256-020-00231-9
33089071
PMC7571595
70. Richter R, Bruns J, Obst W, Keitel-Anselmino V, Weigt J. Influence of artificial intelligence on the adenoma detection rate throughout the day. Dig Dis 2023;41:615-619.
10.1159/000528163
36404713
PMC11548891
71. Park DK, Kim EJ, Im JP, et al. A prospective multicenter randomized controlled trial on artificial intelligence assisted colonoscopy for enhanced polyp detection. Sci Rep 2024;14:25453.
10.1038/s41598-024-77079-1
39455850
PMC11512038
72. Misawa M, Kudo SE, Mori Y. Implementation of artificial intelligence in colonoscopy practice in Japan. JMA J 2025;8: 60-63.
10.31662/jmaj.2024-0133
39926078
PMC11799701



PDF
Citation
Print



XML Download