AI 산업 위협으로 부상한 ‘데이터 오염’ - 이코리아

[AI] generative ai | | 🔬 연구
#ai #ai 학습 데이터 #review #데이터 오염 #보안 위협 #생성형 ai
원문 출처: [AI] generative ai · Genesis Park에서 요약 및 분석

요약

생성형 AI의 성능을 좌우하는 학습 데이터에 허위 정보를 주입해 결과를 왜곡하는 ‘데이터 오염’ 공격이 AI 산업의 새로운 위협으로 대두되고 있습니다. 중국의 ‘생성형 엔진 최적화(GEO)’ 사례처럼 상업적 목적으로 AI의 추천 답변을 조작하거나, ‘포이즌 파운틴’처럼 기술 발전 자체를 저지하려는 시도가 확인되는 실정입니다. 연구에 따르면 수백 건의 악성 문서만으로도 대형 언어모델에 백도어를 심을 수 있어 공격 진입 장벽이 낮은 편입니다. 이에 따라 업계는 데이터 출처 검증과 필터링 기술, ‘휴먼 인 더 루프’ 등의 보안 대책 마련에 분주합니다.

본문

[이코리아] 생성형 인공지능(AI)이 검색, 추천, 업무 자동화 등 다양한 분야로 확산되는 가운데, AI의 성능을 좌우하는 학습 데이터를 악용하는 ‘데이터 오염(data poisoning)’이 AI 산업의 위협으로 떠오르고 있다. 데이터 오염은 AI가 학습하거나 참고하는 데이터에 허위·조작 정보를 의도적으로 주입해, 이후 AI의 판단이나 답변을 왜곡하도록 만드는 공격을 의미한다. AI가 방대한 데이터를 기반으로 패턴을 학습하는 구조를 갖는 만큼, 입력되는 데이터가 바뀌면 결과 역시 달라질 수밖에 없다는 점을 악용한 방식이다. 생성형 AI의 대표적 문제로 꼽히는 환각 현상이 구조적 한계로 발생하는 의도치 않은 오류라면, 데이터 오염은 특정 목적을 가진 행위자가 잘못된 데이터를 주입해 AI의 판단을 왜곡한다는 점에서 보다 적극적인 공격 개념에 가깝다. 전통적인 데이터 오염은 학습 데이터 자체를 조작하는 방식으로 이루어진다. 예를 들어 이미지 데이터의 라벨을 의도적으로 바꾸고 교란용 패턴을 통해 사람이 인지하기 어려운 방식으로 데이터를 변형하거나 특정 문서를 반복적으로 주입해 AI가 잘못된 개념을 학습하도록 만드는 식이다. 일부 공격은 특정 단어나 조건이 입력될 때만 오작동하도록 설계된 ‘백도어’ 형태로 구현되기도 한다. 최근에는 AI가 실시간으로 외부 정보를 참고하는 구조가 확산되면서, 학습 데이터뿐 아니라 검색 결과나 참고 문서, 사용자 맞춤 정보 등 다양한 경로가 새로운 오염 지점으로 떠오르고 있다. 즉, AI 모델 자체를 해킹하지 않더라도, AI가 참고하는 정보 환경을 조작하는 것만으로도 결과를 바꿀 수 있는 환경이 형성된 것이다. 이 같은 구조적 취약성은 실제 사례로도 드러나고 있다. 최근 중국에서는 ‘생성형 엔진 최적화(GEO, Generative Engine Optimization)’라는 이름의 서비스가 논란이 됐다. 일부 업체들이 허위 또는 과장된 홍보성 콘텐츠를 대량으로 온라인에 유포한 뒤, 이를 AI가 참고하도록 유도해 특정 상품이나 서비스를 ‘추천 답변’ 형태로 노출시키는 방식이다. 실험에서는 존재하지 않는 제품에 대한 홍보 글을 다수 게시한 뒤, 주요 AI 모델이 해당 제품을 추천하는 결과가 확인되기도 했다. 기존 검색엔진에서 광고와 검색 결과의 경계가 흐려졌던 것처럼, AI 시대에는 ‘답변 자체’를 조작하려는 시도가 나타나고 있는 셈이다. 지난해 10월 앤트로픽이 영국 AI Security Institute(AISI), 앨런 튜링 연구소와 공동으로 진행한 연구에 따르면, 수백 건 수준의 악성 문서만으로도 대형 언어모델에 특정 행동을 유도하는 ‘백도어’를 심을 수 있는 것으로 나타났다. 연구진은 6억~130억 파라미터 규모의 모델을 대상으로 실험한 결과, 약 250개의 조작된 문서만으로도 특정 ‘트리거 문구’에 반응해 무의미한 출력이나 오류를 생성하도록 만들 수 있음을 확인했다. 특히 모델 규모나 학습 데이터 양과 관계없이 동일한 수준의 오염 데이터로 공격이 가능하다는 점이 확인되며, 데이터 오염의 진입 장벽이 예상보다 낮다는 점이 드러났다. 상업적 목적을 넘어, AI 기술 발전 자체를 저지하기 위해 공격 수단으로 데이터 오염을 활용하려는 움직임도 등장했다. 지난 1월 더 레지스터 등 외신에 따르면, 일부 기술 관계자들은 ‘포이즌 파운틴(Poison Fountain)’ 프로젝트를 통해 웹사이트 운영자들에게 AI 학습을 방해하는 데이터를 유포할 것을 촉구하고 있다. 이 프로젝트는 AI 기업들이 웹 크롤러로 인터넷 데이터를 수집하는 구조를 역이용한다. 웹페이지에 오류가 포함된 코드나 허위 정보로 구성된 ‘오염 데이터’ 링크를 삽입해 크롤러가 이를 수집하도록 유도하고, 결과적으로 모델 학습 과정에서 성능 저하를 유발하는 방식이다. 프로젝트 측은 이를 “AI 시스템을 약화시키기 위한 정보 무기”로 규정했다. 그렇다면, 데이터 오염 문제를 막을 수 있는 해법은 있을까. 업계와 연구기관들은 우선 데이터 거버넌스를 강화하는 것이 중요하다고 강조한다. AI가 학습하거나 참고하는 데이터의 유입 경로를 추적하고, 신뢰할 수 있는 출처를 선별해야 한다는 것이다. 또 외부 웹 데이터나 사용자 입력을 그대로 활용하기보다, 검증된 데이터를 중심으로 학습 구조를 재설계하는 경우도 있다. 기술적 대응도 병행되고 있다. 이상 패턴을 탐지해 오염 데이터를 걸러내는 필터링 기술과, 모델이 특정 입력에 비정상적으로 반응하는지를 점검하는 ‘적대적 테스트(adversarial testing)’가 대표적이다. 일부 기업들은 학습 데이터의 변경 이력을 추적하거나, 데이터 무결성을 검증하는 방식으로 오염 여부를 사전에 탐지하려는 시스템을 도입하고 있다. 운영 단계에서도 인간의 개입이 필수적이다. 특히 금융·의료 등 고위험 분야에서는 특정 주제나 키워드에서 편향된 답변이 반복되는지 모니터링하고, 최종 의사결정에 인간이 필수적으로 개입하도록 하는 ‘휴먼 인 더 루프(Human-in-the-loop)’ 구조를 채택해야 한다는 것이다. 다만 근본적인 해결은 쉽지 않다는 지적도 나온다. 대형 언어모델이 인터넷 기반 데이터를 폭넓게 활용하는 이상, 오염 데이터를 사전에 완벽히 제거하는 것은 현실적으로 불가능에 가깝다는 평가다. 결국 데이터 오염 문제는 기술적 방어만으로 해결되기보다, 데이터 품질 관리와 규제, 산업 자율 기준이 함께 작동하는 복합적 대응이 필요하다는 분석이다.

Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.

공유

관련 저널 읽기

전체 보기 →