"비만 관리 활용 2% 부족"…가능성·한계 공존하는 챗 지피티 - 메디칼타임즈
[AI] chatgpt
|
|
{'이벤트': '📰', '머신러닝/연구': '📰', '하드웨어/반도체': '📰', '취약점/보안': '📰', '기타 AI': '📰', 'AI 딜': '📰', 'AI 모델': '📰', 'AI 서비스': '📰', 'discount': '📰', 'news': '📰', 'review': '📰', 'tip': '📰'} review
#ai 딜
#ai 모델
#chatgpt
#openai
#머신러닝/연구
요약
독일 연구진의 분석에 따르면 ChatGPT는 비만 관리에서 생활습관과 영양 영역에는 높은 정확도를 보였지만, 비만대사수술 등 고위험 의사결정 영역에서는 중등도 수준의 성능을 나타냈습니다. 다른 AI 챗봇 대비 우수한 정확도를 기록했으나, 임상적으로 유의미한 체중 감량이나 장기 행동 변화를 입증한 무작위대조시험 자료는 부족합니다. 연구진은 저위험 영역에서의 활용 가능성은 인정하면서도, 충분한 검증 전까지 고위험 치료에서는 신중한 접근이 필요하다고 강조했습니다.
왜 중요한가
본문
[메디칼타임즈=최선 기자] 비만 관리에서 챗 지티피(ChatGPT)가 생활습관·영양 영역에서는 높은 정확도를, 비만대사수술 관련 영역에서는 중등도 수준의 성능을 보이는 것으로 나타났다. 기존 챗봇 대비 전반적으로 우수한 정확도를 기록했지만, 임상적으로 의미 있는 체중 감량이나 장기 행동 변화에 대한 근거는 부족해 가능성과 한계를 동시에 확인했다는 평가다. 독일 이스마닝 DHGS 모하메드 모테발리 등 연구진이 진행한 비만 관리를 위한 ChatGPT의 임상적 함의 연구 결과가 국제학술지 LANCET에 10일 게재됐다(DOI: 10.1016/j.landig.2026.100980). 이번 연구는 전 세계적으로 비만 유병률이 급증하는 상황에서, 접근성과 확장성이 높은 디지털 헬스 도구로서 ChatGPT의 역할을 체계적으로 검토할 필요성에서 출발했다. 기존 비만 관리 연구는 대면 진료나 특정 프로그램 중심으로 설계돼 있어, 실제 일상 환경에서 지속 가능한 행동 변화를 유도하는 데 한계가 있었다. 특히 기존 디지털 헬스 애플리케이션들은 개인화 수준, 상호작용성, 임상적 신뢰성 측면에서 일관된 성과를 보이지 못했다. 이에 따라 자연어 기반 상호작용이 가능한 생성형 AI가 새로운 대안으로 주목받았지만, 그 효과와 한계를 종합적으로 분석한 근거는 부족한 상황이었다. 연구진은 PubMed, Web of Science 및 기타 보조 데이터베이스를 통해 2022년 12월 1일부터 2025년 10월 31일까지 발표된 연구를 수집하고, 주제별 통합 분석(thematic synthesis) 방식으로 검토를 수행했다. 총 37편의 연구(원저 29편, 리뷰 8편)가 포함됐으며, 비만 관리에서 ChatGPT의 활용 영역, 효과, 한계를 다각도로 평가했다. 분석 범위는 환자 교육, 행동 교정, 임상 의사결정 지원, 약물 및 수술 가이드 등 전반적인 비만 관리 스펙트럼을 포괄했다. 연구 결과, 생활습관 및 영양 관련 12개 연구 중 9개(75%)에서 ChatGPT는 전문가 또는 가이드라인과 비교해 높은 정확도를 보였다. 반면 비만대사수술 관련 연구에서는 10개 중 5개(50%)에서만 높은 정확도를 보여 상대적으로 낮은 성능을 나타냈다. 또한 DeepSeek, Copilot, Gemini, Bing, Bard, DALL·E 3 등 다른 AI 도구들과 비교했을 때 전반적으로 더 높은 정확도를 기록한 것으로 분석됐다. 다만 특정 질환에 특화된 알고리즘이나 전용 애플리케이션과의 비교 연구는 제한적이었다. ChatGPT는 비만 관리에서 총 8개 영역인 생활습관 지원, 사용자 참여 유도, 임상 의사결정 보조, 약물 가이드, 가상 평가, 수술 가이드, 예측 모델링, 연구 지원—에서 활용 가능성이 확인됐다. 동시에 정확도 및 신뢰성 문제, 알고리즘 편향, 문화적 민감성 부족, 투명성과 책임성, 과도한 의존, 윤리·법적 이슈 등 6개 핵심 한계가 지적됐다. 특히 전체 연구 중 27%만이 높은 신뢰도로 평가됐고, 다수 연구에서 편향 위험과 통계적 엄밀성 부족이 확인됐다. 연구진은 이러한 결과를 바탕으로 ChatGPT의 성능을 '잠재력은 높지만 임상적 검증은 부족한 상태'로 해석했다. 생활습관 개선과 같은 저위험 영역에서는 비교적 유용하게 활용될 수 있지만, 수술이나 약물 처방 등 고위험 의사결정 영역에서는 신중한 접근이 필요하다는 것. 무엇보다 무작위대조시험(RCT)을 통해 실제 체중 감소, 재발 방지, 장기 행동 변화 등 임상적 유효성을 입증하는 연구가 부족하다는 점이 핵심 한계로 지목됐다. 연구진은 "ChatGPT는 비만 관련 생활습관 개선 맥락에서 높은 정확도를 보였고, 비만 수술 맥락에서는 중간 정도의 정확도를 보였다"며 "DeepSeek, Copilot, Gemini, Bing 등 다른 챗봇들의 성능을 능가하는 경우가 많았지만, 전문 애플리케이션이나 전용 알고리즘과의 비교 데이터는 여전히 부족하다"고 결론내렸다. 이어 "ChatGPT의 영향을 평가하는 엄격한 RCT가 부족하다는 점은 기술 혁신과 기존 증거 사이의 격차를 보여준다"며 "포괄적인 연구가 그 효능을 확인하기 전까지는 비만 치료에서 ChatGPT의 역할을 탐구적으로 고려해야 한다"고 덧붙였다. - 최신순 - 추천순 댓글운영규칙ex) medi****** 아이디 앞 네자리 표기 이외 * 처리 댓글 삭제기준 다음의 경우 사전 통보없이 삭제하고 아이디 이용정지 또는 영구 가입이 제한될 수 있습니다. 1. 저작권・인격권 등 타인의 권리를 침해하는 경우 2. 상용프로그램의 등록과 게재, 배포를 안내하는 게시물 3. 타인 또는 제3자의 저작권 및 기타 권리를 침해한 내용을 담은 게시물 4. 욕설 및 비방, 음란성 댓글