오염 데이터나 오래된 AI모델, “닳고 ‘붕괴’된다” - 애플경제
[AI] ai 모델
|
|
{'이벤트': '📰', '머신러닝/연구': '📰', '하드웨어/반도체': '📰', '취약점/보안': '📰', '기타 AI': '📰', 'AI 딜': '📰', 'AI 모델': '📰', 'AI 서비스': '📰', 'discount': '📰', 'news': '📰', 'review': '📰', 'tip': '📰'} AI 모델
#ai
#ai 모델
#붕괴
#애플경제
#오염 데이터
#ai 퇴화
#데이터 오염
#모델 노화
#합성데이터
요약
AI 모델이 자신이 생성하거나 오염된 합성 데이터로 반복 학습할 경우, 오류가 누적되어 품질이 저하되는 ‘모델 붕괴’ 현상이 발생할 수 있습니다. 이는 마치 테이프를 복사할 때 화질이 나빠지는 것처럼, AI가 환각 현상을 일으키거나 신뢰할 수 없는 정보를 출력하게 만듭니다. 전문가들은 붕괴를 늦추기 위해 학습 과정에서 인간이 생성한 실제 데이터와 합성 데이터를 적절히 혼합하여 사용해야 한다고 조언했습니다.
왜 중요한가
본문
마치 생물처럼 오래되고, 합성데이터 많을수록 낡아서 ‘퇴행’ ‘붕괴’되면 오류, 잘못된 답변, 환각 등 “못쓸 정도로 ‘닳아빠져’” ‘통계된 근사 오류’, ‘오염된 데이터’ 등이 모델 ‘노화’ 앞당겨 “데이터 패턴 파악 후 인간의 데이터&합성데이터 적절한 조화 필요” [애플경제 전윤미 기자] 데이터 부족은 AI산업의 영원한 숙제다. 그렇다 보니 날로 AI로 만든 ‘합성데이터’나 이미 여러 차례 써먹던 ‘낡고 오염된 데이터’를 재활용하곤 한다. 그 결과 AI품질이 떨어지다못해 결국 전혀 신뢰할 수 없는 ‘가짜’나 ‘엉터리’ 출력물을 쏟아내기도 한다. 관련 업계와 전문가들은 이를 ‘모델 붕괴’(model collapse)로 부르기도 한다. 모델 붕괴는 AI 기업과 사용자에게 악몽과 같다. AI 데이터로 학습된 AI 모델은 세대가 거듭될수록 품질이 저하될 수 밖에 없다. 마치 열쇠나 카셋 테이프를 오래 사용하는 것과도 같다. 생성AI가 주류로 자리 잡으면서 이젠 인간세상에서 만들어진 본연의 데이터가 아닌, AI가 생성한 콘텐츠가 점점 더 흔해지고 있다. 텍스트, 오디오, 이미지, 비디오 등 (사실상의 가상 내지 가짜인) 합성 데이터를 생성하는 것이 그 어느 때보다 쉬워졌다. 그러나 합성 데이터는 실제 데이터를 완전히 대체할 수 없다. 훌륭한 AI 모델과 에이전트를 구축하기 위해 실제 데이터를 보완하고 확장하는 데 사용되어야 한다는게 다수 전문가들의 지적이다. 합성데이터 폭발적 증가, ‘모델 붕괴’ 재촉 더욱이 합성 데이터의 폭발적인 증가는 앞서 언급한 ‘모델 붕괴’와 같은 결과를 초래한다. 이미 진작부터 ‘가트너’ 등은 엄청난 양의 AI 합성 데이터가 어떤 부작용을 낳을지에 대해 경고하고 있다. 가트너는 수 년 전부터 “AI 데이터를 이용한 학습이 일종의 ‘알고리즘적 피드백 루프’를 만들어 AI 모델이 실제 데이터와 점점 더 멀어지고, 잘못된 정보에 현혹될 가능성을 높일 수 있다”고 우려했다. 그래서 “AI 생성 정보와 인간이 작성한 정보의 적절한 조화가 중요하다”는 것이다. 그럼에도 만약 사람들이 만든 콘텐츠를 모두 소진하고 AI 생성 정보만 남으면 어떻게 될까? ‘가트너’는 이에 별도의 호칭을 붙이진 않았다. 그러나 옥스퍼드 대학교의 일리아 슈마일로프와 자하르 슈마일로프라는 과학자들이 처음으로 이를 ‘모델 붕괴’라고 불렀다. 모델 붕괴는 AI 모델이 갈수록 현실을 잘못 인식하고, 가능성이 낮은 사건에 베팅하며, 저품질 또는 잘못된 출력을 생성하기 시작하는 ‘통계적 퇴행 과정’이다. 이는 훈련(합성) 데이터가 자신의 출력이나 다른 인공지능이 생성한 정보로 오염될 때 ‘붕괴’하기 시작한다. 예를 들어, 모델 A가 순전히 ‘사람’이 생성한 정보로 훈련되었다고 가정해본다. 그런 모델 A가 나중엔 대량의 합성 데이터도 생성한다. 다시 새로운 모델 B가 이 합성 데이터를 훈련에 사용한다. 그런 다음 모델 C가 다시 모델 A와 B의 합성 데이터를 사용하여 훈련한다. 이런 식으로 거듭된 과정을 거치면 합성 데이터가 훈련 데이터 분포를 파괴하고 만다. 이는 마치 VHS 테이프를 여러 번 복사하는 것과도 같다. 복제를 반복할수록 화질 저하와 오류 현상이 늘어난다. ‘모델 붕괴’는 LLM(대규모 언어 모델)에만 국한된 것이 아니다. ‘변분 인코더’와 같은 신경망 아키텍처나, 혼합 모델과 같은 확률 모델 역시 모델 붕괴에 취약하다. 실제 사례로 메타AI 연구진이 개발한 오픈 소스 대규모 언어 모델인 OPT-125M을 들 수 있다. 연구진은 모델 붕괴를 테스트하기 위해 OPT-125M을 자체 출력 데이터로 학습시킨 후, 과거 아키텍처에 대한 질문을 던졌다. 그 결과, 모델은 정답이 아닌 토끼 그림을 출력했다. (합성데이터를 반복해서 사용한) 차세대 AI 모델들은 바로 이같은 모델 붕괴 현상에 부딪히게 되는 것이다. 모델 붕괴는 ‘LLM’(Learning Leadership Model) 내에서 환각 현상을 유발할 뿐만 아니라 핵심 학습 정보 손실, 잘못된 의사 결정 가능성, 그리고 AI 안전장치 약화로 이어져 영향을 받는 AI 모델에 대한 비즈니스 신뢰를 저해할 수 있다. 모델 붕괴의 원인과 단계별 과정 대체로 많은 모델은 실제 데이터의 비율이 합성 데이터의 비율보다 높은 경우가 많다. 그러나 “합성 데이터의 비율이 실제 데이터를 초과하면 모델이 붕괴될 수 있다” 그 중 ‘초기 붕괴’는 드물거나, 흔하지 않거나, 특이한 정보는 모델이 건너뛴다. 또한 ‘잊어버리기’ 시작한다. 초기 붕괴는 모델의 대부분 출력이 여전히 양질의 정보를 생성하기 때문에 언뜻 감지하기 어렵다. 시간이 좀 더 지난 ‘후기 붕괴’ 단계에 접어들면, 합성 데이터의 구조가 손실되기 시작한다. 이때 모델은 서로 다른 (학습 데이터) 패턴을 혼합, 정답과 비슷하지만 실제 상황과는 다른 출력을 생성한다. ‘후기 붕괴’를 겪는 모델은 모호하고 품질이 낮은 응답을 생성한다. ‘완전 붕괴’는 학습 환경에 매우 높은 임계값의 합성 데이터가 유입될 때 발생하는 가상의 사건이다. 해당 모델은 오로지 합성 데이터에만 의존하게 된다. 이때의 모델 행동을 ‘자기소모적 루프에 빠졌다’고 표현하기도 한다. 학습 데이터의 오류는 모델 붕괴로 이어지며, 샘플링 데이터의 크기는 오류율에 영향을 미친다. 수학은 참으로 신기한 현상이다. 만약 기업들이 무한한 수의 샘플을 사용한다면 오류는 사라질 것이다. 하지만 인터넷상에 무한한 데이터는 애초 존재할 수 없다. 물리적으로도 불가능한 일이다. 그 때문에 합성 데이터를 올바르게 사용하면 고품질 AI 모델을 학습하는 데 효과적이다. 그러나 핵심은 “학습 과정의 모든 단계에서 실제 데이터와 합성 데이터를 적절히 혼합하는 것”이다. 모델이 샘플링된 데이터로 학습할 때마다 정답과 비슷한 오류가 발생한다. 하지만 대량의 합성 데이터가 학습 과정에 투입되면 ‘통계적 오류’가 더 자주 발생한다. 결과적으로 작은 통계적 오류가 시간이 지남에 따라 누적되어 모델 붕괴로 이어지는 것이다. 이때 ‘통계적 근사 오류’는 모델 붕괴의 주요 원인이다. 앞서 옥스퍼드 연구진에 의하면 “모델은 회귀 분석을 수행하며, 본질적으로 서로 다른 데이터 포인트 간의 연결 고리를 찾는 방법을 학습”한다. 오류는 실제 값과 모델에서 도출된 근사값 사이의 차이다. 그렴에도 모델은 그저 일반화된 답변이나, 완전히 잘못된 답변을 자신 있게 출력한다. ‘붕괴’하는 모델은 실제 값에서 더 많은 편차를 발생시킨다. 모델 붕괴를 최소화하려면… 모든 모델은 신경망의 뉴런에 가중치를 부여한다. 가중치가 높을수록 종속 변수의 중요도가 높아진다. 그러나 AI 학습에 사용되는 데이터는 복잡한 데이터의 근사치일 뿐이다. ‘함수 근사 오차’로 인해 모델은 학습 데이터를 잘못 연결하며, 결국 학습 데이터 범위를 벗어난 잘못된 데이터를 생성할 수 있다. ‘함수 근사 오차’는 모델 붕괴의 이차적인 원인이다. 다만 세대가 거듭될수록 심화되지는 않는다. ‘데이터 오염’ 또한 모델 붕괴의 간접적인 원인이다. 해커는 의도적으로 학습 과정에 잘못된 데이터를 삽입할 수 있다. 그 결과, 모델은 잘못된 패턴을 학습, 허위 정보를 생성할 수 있다. 아직은 가장 큰 위험은 아니지만, 향후 모델 학습 과정에소 유의해야 할 대목이다. AI 및 데이터 관련 기업인 ‘클라우데라’는 이에 대해 “가장 좋은 방법은 모델 선택부터 시작하는 것”이라며 “실제 데이터와 합성 데이터를 적절히 혼합, 활용하는 견고한 데이터 전략”을 강조한다. 특히 “최적의 학습 데이터를 선택한 후에도 합성 데이터가 학습 과정에 유입되는 것을 완전히 막을 수는 없다”고 했다. 이에 따르면 실제 데이터 샘플부터 시작하고, 레이블을 지정하고, 품질을 반영하는 메타데이터를 추가해야 한다. 특히 모델붕괴의 단계적 해결 방안으로 “데이터를 클러스터링하여 통계적 패턴을 파악한 다음, 이런 패턴을 반영하는 합성 데이터를 생성한다. LLM(레이블 기반 모델)을 활용하면 도움이 될 수 있다.”고 조언했다. 즉 “모델 붕괴는 불가피하지만, 학습 데이터에서 사람이 생성한 정보의 비율을 높게 유지하면 붕괴를 늦출 수 있다”는 것이다.