AIWORKX, AI 에이전트 검증 “콘텐츠에서 행동 평가”로 패러다임 전환 - elec4

[AI] 에이전트 AI | | 📰 뉴스
#ai 에이전트 #aiworkx #elec4 #검증 #패러다임 전환 #ai 모델 #ai 비전 검사 #physical ai #스마트공장 #하드웨어/반도체
원문 출처: [AI] 에이전트 AI · Genesis Park에서 요약 및 분석

요약

AIWORKX가 KOLAS 공인시험 기관이 참여한 AI 에이전트 신뢰성 평가 솔루션 ‘AgentRigor’를 4월 30일 출시해 산업별 컴플라이언스 대응을 강화한다. 이번 솔루션은 기존 콘텐츠 평가에서 벗어나 서비스 관점의 평가와 자동화 검증을 지원하며, 2033년 시장이 1,830억 달러로 성장할 것으로 전망되는 글로벌 AI 에이전트 시장의 신뢰성 검증 수요를 반영했다. 금융과 공공 등에서 AI 기본법 시행을 앞둔 상황에서, 기업 맞춤형 정밀 평가가 가능해져 실제 서비스 환경과 기업별 요구사항을 충족하는 데 기여할 전망이다.

본문

‘AgentRigor’ 출시…KOLAS 기반 평가·자동화 검증으로 산업별 AI 컴플라이언스 대응 강화 AIWORKX(에이아이웍스, 대표 윤석원)가 AI 에이전트 신뢰성 평가 솔루션 ‘AgentRigor(에이전트리거)’를 4월 30일 정식 선보인다고 밝혔다. 업체 측에 따르면, AgentRigor는 기존 콘텐츠 중심의 평가 방식에서 벗어나, 서비스 관점의 컴플라이언스 평가로 패러다임을 전환한 것이 특징이다. 특히 국내 AI 평가 솔루션 가운데 소프트웨어 분야 KOLAS(한국인정기구) 공인시험 기관이 설계 단계부터 참여한 점이 차별화 요소로 꼽힌다는 설명이다. 글로벌 AI 에이전트 시장은 2025년 76억 달러에서 2033년 1,830억 달러 규모로 성장할 것으로 전망된다. 금융·의료·법률·물류 등 버티컬 AI 시장이 확대되면서 산업별 요구사항을 반영한 신뢰성 검증 수요도 빠르게 증가하고 있다. 특히 국내에서는 AI 기본법 시행을 앞두고 금융·공공 분야를 중심으로 컴플라이언스 검증 필요성이 확대되는 추세라고 업체 측은 전했다. 그러나 기존 AI 에이전트 평가 방식은 범용 벤치마크 데이터셋에 의존해 실제 서비스 환경을 충분히 반영하지 못하고, 획일적인 평가 기준으로 기업별 요구사항이나 문화적 맥락을 고려하기 어려운 한계가 있었다. 또한 입력과 출력 비교 중심의 방식으로는 사용자 정보와 맥락을 반영한 정밀한 평가가 어렵다는 지적이 이어져 왔다. AgentRigor는 이러한 한계를 보완해 산업별 서비스 맥락을 반영한 종합 평가를 지원한다고 업체 측은 밝혔다. 기존의 단순 오류 판별 중심 평가에서 벗어나, AI 에이전트의 대응 방식과 리스크를 함께 분석하는 구조로 설계됐다는 것이다. 또한 자체 구축한 한국어 특화 평가 데이터 자산을 활용해 도메인별 실제 서비스 환경에 가까운 정밀 평가가 가능하다. 주요 기능으로는 LLM 응답 품질과 평가 신뢰도의 정량 검증, 실제 사용자 시나리오 기반 안전성 검증, 공인 프레임워크 기반 컴플라이언스 대응 지원 등이 포함된다. 이와 함께 시나리오 기반 테스트 데이터 자동 생성, 자동 평가와 인적 평가 통합 관리, 결과 시각화 및 리포트 자동 생성 기능 등도 제공한다. AIWORKX는 해당 솔루션을 국내 대형 IT 서비스 기업의 AI 에이전트 검증 프로젝트에 적용했으며, 화장품 추천 플랫폼 테스트에서는 1,440건의 도메인 케이스를 단기간에 검증하며 안정성을 확인했다고 설명했다. 기업은 AgentRigor를 통해 서비스 배포 전 사전 테스트로 AI 도입 리스크를 점검하고, 자동화된 검증 파이프라인을 통해 수동 검증 대비 준비 시간을 단축할 수 있다. 또한 멀티 벤더 환경에서 다양한 AI 모델을 정량적으로 비교할 수 있으며, 온프레미스와 클라우드 환경을 모두 지원해 보안 요구가 높은 산업에서도 활용 가능하다는 설명이다. 윤석원 AIWORKX 대표는 “AI 에이전트가 실제 업무를 수행하는 시대에 접어들면서 배포 전 신뢰성 검증은 필수 요소가 됐다”며, “AgentRigor를 통해 AI 에이전트 신뢰성의 새로운 기준을 제시하겠다”고 밝혔다. AgentRigor는 5월 6일부터 8일까지 서울 코엑스에서 열리는 ‘AI Expo Korea 2026’에서 라이브 데모로 공개될 예정이다. AIWORKX는 향후 다중턴 대화 검증, 에이전트 워크플로우 연동 검증, MCP 호환 기능 등을 추가하고, 도메인별 시험 및 인증 프로그램을 확대해 AI 에이전트 평가의 글로벌 표준화를 추진할 계획이다.

Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.

공유

관련 저널 읽기

전체 보기 →