"온라인 익명 글만으로 LLM이 실제 작성자 70% 찾아내"
AI Times
|
|
🔬 연구
#ai
#llm
#review
#개인정보
#익명성
#재식별
원문 출처: AI Times · Genesis Park에서 요약 및 분석
요약
사용자 게시글이 주어지면, (1)LLM을 사용해 개인 식별과 관련된 특징을 추출하고 (2)의미 기반 임베딩을 활용해 후보 계정을 검색한다. 이어 (3)LLM 추론을 통해 상위 후보를 선별하고 (4)결정 임계값을 조정하기 위해 신뢰도 점수를 부여한다. (사진=arXiv) 대형언어모델(LLM)이 인터넷에 공개된 익명의 글만으로도 실제 인물을 90% 확률로 찾아낼 수 있다는 연구 결과가 발표됐다.
본문
대형언어모델(LLM)이 인터넷에 공개된 익명의 글만으로도 실제 인물을 90% 확률로 찾아낼 수 있다는 연구 결과가 발표됐다. 연구진은 기존의 온라인 익명성 보호 방식이 LLM으로 인해 무력화될 수 있다고 강조했다. ETH 취리히와 앤트로픽 연구진은 최근 LLM을 활용해 온라인 사용자 계정을 대규모로 재식별(deanonymization)하는 방법에 관한 논문 ‘대형언어모델을 활용한 대규모 온라인 재식별(Large-scale online deanonymization with LLMs)’을 온라인 아카이브를 통해 공개했다. 연구에 따르면, AI 에이전트는 인터넷 접근 권한을 활용해 가명으로 활동하는 사용자 프로필과 대화 내용만으로도 실제 인물을 높은 정확도로 찾아낼 수 있다. 연구진의 실험에서는 가명으로 활동하는 사용자 정보와 게시글, 댓글 등 공개된 텍스트 데이터를 기반으로 실제 인물의 온라인 프로필을 찾아 연결했다. 그 결과, AI는 해커 뉴스(Hacker News) 사용자나 앤트로픽 인터뷰 참가자와 같은 온라인 인물을 높은 정확도로 재식별할 수 있었다. 이러한 작업은 사람이 수행하면 몇시간이 걸릴 수 있지만, AI 에이전트는 이를 자동화해 훨씬 빠르게 처리할 수 있다. 연구진은 두개의 데이터베이스에 존재하는 가명 사용자들을 서로 연결하기 위한 LLM 기반 공격 파이프라인도 설계했다. 이 시스템은 먼저 사용자 글이나 게시물 등 텍스트에서 개인 식별에 도움이 되는 특징을 추출한다. 이후 의미 기반 임베딩을 활용해 서로 유사한 특성을 가진 후보 계정을 검색한다. 그 다음 후보 계정들을 추가로 분석해 실제로 동일 인물인지 여부를 판단하고, 신뢰도 점수를 계산해 결과의 정확성을 검증한다. 이러한 방식은 기존 재식별 연구와 달리, 구조화된 데이터가 아닌 일반 텍스트만으로도 작동한다는 것이 특징이다. 과거 넷플릭스 데이터셋 연구처럼 정형 데이터에 의존하던 기존 방법과 비교해 훨씬 다양한 온라인 플랫폼에서 적용될 수 있다는 의미다. 연구진은 세가지 데이터셋을 활용해 모델 성능을 평가했다. 첫번째 실험에서는 해커 뉴스 사용자와 링크드인 프로필을 연결했다. 두번째 실험에서는 레딧의 영화 토론 커뮤니티 사용자들을 서로 다른 계정 간에 매칭했다. 세번째 실험에서는 한 사용자의 레딧 활동 기록을 시간 기준으로 나눠 두개의 가명 프로필을 만든 뒤 동일 인물 여부를 찾도록 했다. 실험 결과, LLM 활용 방식은 기존 알고리즘보다 크게 높은 성능을 보였다. 정확도 90% 기준에서 최대 68%의 재식별률을 기록했으나, 기존 비LLM 방식은 0%에 가까운 성능을 보였다. 즉, LLM의 검색과 추론, 보정 기능을 총동원하면 기존 방식으로는 한명도 식별하지 못했던 조건에서도 10명 중 약 7명의 신원을 90% 이상의 높은 정확도로 특정할 수 있게 된 것이다. 연구진은 이러한 결과가 인터넷에서 가명 사용자를 보호해 온 ‘실질적 익명성(practical obscurity)’ 개념이 약화하고 있음을 보여준다고 설명했다. 과거에는 온라인 계정이 가명이라도 실제 인물과 연결하려면 많은 시간과 비용이 필요했지만, LLM 기반 자동화 시스템이 등장하면서 이러한 작업이 훨씬 빠르고 저렴해질 수 있다는 것이다. 실제 실험에서는 한 계정을 재식별하는 데 고작 1~4달러 수준의 계산 비용만 필요했다. 연구진은 "앞으로 온라인 개인정보 보호 모델과 위협 분석 방식이 변화할 가능성이 높다"라고 내다봤다. 특히 "공개된 게시글이나 댓글 같은 작은 정보 조각이 누적될수록 개인을 식별할 가능성이 높아질 수 있다"라고 경고했다. 박찬 기자 [email protected]
Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.
공유