덜 시켜도 알아서 일한다...오픈AI 수퍼앱 엔진 GPT-5.5 출시 [팩플] - 중앙일보
[AI] gpt-5.5
|
|
🔬 연구
#ai 모델
#gpt-5
#gen-ai
#리소스 제한
#머신러닝
#머신러닝/연구
#성능 개선
#추론 최적화
요약
제공된 기사 본문에는 Joyjit Kundu, Joshua Klein, Aakash Patel, Dwaipayan Biswas 등의 저자가 참여한 연구 논문 정보가 포함되어 있습니다. 이 논문은 리소스가 제한된 플랫폼 환경에서 생성형 AI의 추론 성능을 극대화하는 것을 목표로 하는 기술적 해결책을 제안하고 있습니다. 해당 연구의 구체적인 내용은 arXiv의 문서 링크를 통해 확인할 수 있습니다.
왜 중요한가
개발자 관점
검토중입니다
연구자 관점
검토중입니다
비즈니스 관점
검토중입니다
본문
오픈AI가 23일(현지시간) 인공지능(AI) 모델 GPT-5.5를 공개했다. GPT-5.4 출시 두 달 만이다. 이번 모델은 단순한 벤치마크(성능 평가 지표) 향상을 넘어, 사용자 개입을 줄이고 스스로 작업을 수행하는 AI 에이전트 성능 강화에 초점을 맞췄다. 그렉 브록먼 오픈AI 사장은 이날 진행한 온라인 브리핑에서 “GPT-5.5는 오픈AI가 준비 중인 차세대 수퍼앱의 핵심 엔진이 될 것”이라며 “현재까지 개발된 모델 중 가장 똑똑하고 직관적으로 사용할 수 있는 모델”이라고 소개했다. 오픈AI가 구상하는 수퍼앱은 챗봇과 코딩 도구, 문서 작성 등을 하나의 체계로 통합해 AI가 여러 프로그램을 오가며 복잡한 업무를 직접 처리하는 구조를 의미한다. 덜 시키고 더 일한다 오픈AI가 공개한 GPT-5.5의 주요 특징은 적은 지시로도 많은 결과물을 내놓는 효율성이다. 브록먼은 “모델이 모호한 문제를 맞닥뜨렸을 때 다음에 무엇을 해야 할지 스스로 파악하는 능력이 개선됐다”고 설명했다. 기술적으로는 전 모델과 유사한 토큰(AI데이터 처리 단위)당 지연 시간을 유지하면서도 전체적인 작업 수행에 필요한 토큰 소비량은 줄였다. 토큰당 가격은 GPT-5.4보다 비싸졌지만, 효율이 개선돼 연산 비용이 더 저렴해졌다는 의미다. 오픈AI는 복합적인 작업 능력을 측정하는 터미널 2.0 벤치마크 결과를 제시했다. 회사 측은 이 지표에서 GPT-5.5가 업계 최고 수준을 기록했다고 밝혔다. 앤스로픽에 대해선 견제 최근 강력한 경쟁자로 떠오른 앤스로픽의 모델들과 비교해서도 우수한 성능을 구현했다는게 오픈AI 측 설명이다.오픈AI가 공개한 성능 지표를 보면 GPT-5.5는 지식 업무 수행 능력을 평가하는 GDPval 지표에서 84.9%를 기록해 앤스로픽의 클로드 오퍼스 4.7(80.3%)을 앞섰다. 사이버 보안 능력을 평가하는 사이버짐 지표에서도 역시 상대 모델보다 높은 점수를 받았다. 다만 코딩 부문의 벤치마크인 ‘SWE-벤치 프로’에서는 58.6%에 그쳐, 64.3%를 기록한 앤스로픽의 모델보다 뒤처지는 결과가 나왔다. 이와 관련해 아멜리아 글레이즈 오픈AI 리서치 부사장은 “몇몇 경쟁 모델들은 평가기준에서 오염(데이터 암기)됐다는걸 알고 있다”며 “우리가 사용한 지표들이 성능을 더 잘 반영한다고 생각한다”고 말했다. 벤치마크를 잘 받기 위해 관련한 내용들을 중점적으로 학습했을 것이란 취지다. 앤스로픽과 비교해 파라미터(매개변수) 수를 묻는 질문에 브록먼 사장은“공개하기 어렵다”며 답변하지 않았다. 앤스로픽의 AI 모델 미토스 공개 이후, AI로 인한 보안 우려가 커지는 점을 의식한듯 마크 첸 오픈AI 안전 총괄은 “모델이 점점 강력해지면서 오용 위험은 함께 커진다”며 "안전장치도 그에 맞춰 확장돼야 한다”고 말했다. “AI 없인 뇌가 사라진 기분” 이날 간담회에서 오픈AI는 AI가 실제 업무 환경에 미치는 영향이 크다는 점을 강조했다. 현재 코딩 AI 도구인 코덱스의 주간 사용자는 400만 명에 달하며, 오픈AI 내부 직원의 약 85%가 재무, 마케팅, 데이터 과학 등 일상 업무에 모델을 활용하고 있다. 글레이즈 부사장은 “모델 출시 초기 인프라 불안정으로 서비스가 중단되자 한 직원이 ‘뇌의 일부가 사라진 것 같다’고 표현할 정도로 업무 의존도가 높아졌다”고 전했다. AI가 단순한 도구를 넘어 연구 파트너로서 기능하고 있다는 취지다. 더중앙플러스 : 팩플 더 자세한 기사 내용이 궁금하시다면 주소창에 링크를 붙여넣으세요. AI 쓰려다 ‘복붙 노예’ 됐다? 클로드 코워크에 PC 맡겨라 클로드 코드 같은 AI 에이전트 기능이 화제가 될 때마다 ‘좋은 건 알겠는데, 내가 쓰긴 너무 어렵지 않나?’라며 지켜만 봤다면 클로드 코워크에 주목하자. 클로드가 직접 내 PC 화면을 보고 브라우저를 클릭하며 실무를 대신 수행해준다. 남들이 AI에 잡무를 맡기고 전략을 짤 때, 나 홀로 복사·붙여넣기를 반복하는 건 마치 엑셀 시대에 주판을 두드리는 것과 같다. 이제 과감하게 첫 발을 떼어보자. https://www.joongang.co.kr/article/25421677 포춘 10대 기업 중 8곳 쓴다…챗GPT보다 믿을 만한 AI 반란군 챗GPT와 제미나이가 주도하던 AI 시장의 중심에 앤스로픽의 클로드(Claude)가 섰다. 오픈AI 출신들이 만든 안전 중심의 후발주자에서, 이제는 당당한 AI 3강이자 차기 대세로 자리매김했다. 클로드는 단순한 대화형 챗봇을 넘어, 파일을 읽고 코드를 돌리며 스스로 '실제 업무'를 수행하는 AI 에이전트의 시대를 열었다. 지금 앤스로픽을 모른다는 것은 향후 AI 기술의 방향성을 놓친다는 의미다. 오픈AI 반란군에서 출발해 시장의 판도를 바꾼 앤스로픽의 성장 비결과 앞으로의 AI 생태계 지각변동을 집중 분석했다. https://www.joongang.co.kr/article/25415947 AI 뜨자 채용률 800% 늘었다…연봉 4억 일자리 ‘FDE’ 뭐길래 기업들의 AI를 향한 열기가 뜨거워질수록 신입 개발자 일자리는 급감했지만, 이상하게 이 일자리의 채용 수요만큼은 쑥쑥 늘어난다는데. 이들은 바로 전방 배치 엔지니어(FDE)다. 고객사에 직접 상주하며 현실적인 비즈니스 병목을 파악하고, 그 기업 ‘착붙’인 AI 솔루션을 구축해 주는 엔지니어들이다. 과연 어떤 자질을 갖춰야 FDE가 될 수 있을까. 이들은 어떻게 일하고, 보수는 얼마이며, 근로 조건은 어떤지, 팩플이 현재 활동 중인 FDE들과 기업 관계자들을 직접 만나 물었다. https://www.joongang.co.kr/article/25419711