한컴 '오픈데이터로더 PDF', 출시 일주일 만에 깃허브 트렌딩 1위 달성

AI Times | | 🔬 연구
#review #깃허브 #오픈데이터로더 pdf #오픈소스 #트렌딩 1위 #한컴
원문 출처: AI Times · Genesis Park에서 요약 및 분석

요약

한글과컴퓨터(대표 김연수)는 '오픈데이터로더 PDF v2.0'이 글로벌 오픈소스 개발 플랫폼 깃허브에서 전체 개발 언어 대상 트렌딩 1위를 달성하고 트렌딩 배지를 획득했다고 23일 밝혔다.오픈데이터로더 PDF v2.0은 하루 기준 1800개 이상의 깃허브 스타를 획득하며 누적 스타 수 7000개를 돌파했다.깃허브 스타는 개발자들이 프로젝트의 유용성과 완성도를 평가하는 지표다. 오픈소스 리포지터리를 자신의 계정으로 복사해 독립적으로 활용하는 포크 수도 500개를 넘어서며 글로벌 개발자로부터 높은 인지도와 신뢰도를 확보했다는 설명이다.

본문

한글과컴퓨터(대표 김연수)는 '오픈데이터로더 PDF v2.0'이 글로벌 오픈소스 개발 플랫폼 깃허브에서 전체 개발 언어 대상 트렌딩 1위를 달성하고 트렌딩 배지를 획득했다고 23일 밝혔다. 오픈데이터로더 PDF v2.0은 하루 기준 1800개 이상의 깃허브 스타를 획득하며 누적 스타 수 7000개를 돌파했다. 깃허브 스타는 개발자들이 프로젝트의 유용성과 완성도를 평가하는 지표다. 오픈소스 리포지터리를 자신의 계정으로 복사해 독립적으로 활용하는 포크 수도 500개를 넘어서며 글로벌 개발자로부터 높은 인지도와 신뢰도를 확보했다는 설명이다. 오픈데이터로더 PDF는 PDF 문서를 텍스트·표·이미지 등으로 분해해 AI가 처리 가능한 형태로 변환하는 기술이다. 한컴이 지난해 PDF 기술 전문 기업 듀얼랩과 업무협약(MOU)을 체결하고 공동 개발에 착수해 출시한 결과물이다. AI 방식과 직접 추출 방식을 결합한 하이브리드 엔진을 채택했으며 외부 서버 전송 없이 로컬 환경에서 구동된다. OCR·표 추출·수식 추출·차트 분석 등 AI 애드온 4종을 기본 제공하며 도클링 등 타사 오픈소스 AI 모델과의 기술 호환성도 확보했다. 상업적 활용이 자유로운 아파치 2.0 라이선스를 적용해 기업과 개발자의 도입 문턱도 낮췄다는 설명이다. 자체 벤치마크 테스트에서는 읽기 순서·표·제목 추출 등 전 항목에서 동종 오픈소스 대비 최고 정확도 1위를 기록한 바 있다. 지난해 AI 개발 프레임워크 랭체인 공식 구성요소로 등록했으며, 올해는 랭플로우·라마인덱스·제미나이 CLI 등 주요 AI 프레임워크와의 연동을 확대하고 AI 에이전트 지원을 위한 MCP 기능도 도입할 계획이다. 김연수 한컴 대표는 “이번 성과는 한컴의 문서 데이터 추출 기술의 완성도와 실용성이 글로벌 개발자 커뮤니티에서 직접적인 검증을 받은 결과”라며 “아파치 2.0 라이선스 전환을 통해 전 세계 기업과 개발자가 자유롭게 활용하고 확장할 수 있는 개방형 PDF 데이터 플랫폼으로 발전할 것”이라고 말했다. 김해원 기자 [email protected]

Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.

공유

관련 저널 읽기

전체 보기 →