오픈AI, ‘생각하는 이미지 AI’ 챗GPT 이미지 2.0 공개… “이미지는 장식이 아닌 언어” - 와우테일

[AI] 오픈ai | | {'이벤트': '📰', '머신러닝/연구': '📰', '하드웨어/반도체': '📰', '취약점/보안': '📰', '기타 AI': '📰', 'AI 딜': '📰', 'AI 모델': '📰', 'AI 서비스': '📰', 'discount': '📰', 'news': '📰', 'review': '📰', 'tip': '📰'} AI 서비스
#ai 모델 #ai 쇼핑 #ai 어시스턴트 #ai 플랫폼 #chatgpt #openai #구매 결정 #기타 ai #쇼핑 리서치 #챗gpt

요약

챗GPT가 단순한 대화형 인공지능을 넘어 사용자의 실제 구매 결정을 적극적으로 보조하는 AI 쇼핑 플랫폼으로 도약하고자 새로운 '쇼핑 리서치' 기능을 선보였습니다. 이번 기능 도입은 AI가 제공하는 정보를 넘어 상품 추천과 구매 과정까지 아우르는 종합적인 쇼핑 환경을 구축하겠다는 전략으로 풀이됩니다. 이를 통해 사용자들은 더욱 맞춤화되고 효율적인 쇼핑 경험을 누리게 되며, AI 기반 이커머스 시장의 경쟁력도 한층 강화될 것으로 전망됩니다.

왜 중요한가

관련 엔티티

오픈AI 생각하는 이미지 AI 챗GPT 이미지 2.0 챗GPT 쇼핑 리서치 와우테일

본문

이미지 생성 AI 시장에서 오랫동안 군림해 온 달리(DALL-E)의 시대가 막을 내린다. 오픈AI(OpenAI)가 지난 21일 차세대 이미지 생성 모델 ‘챗GPT 이미지 2.0(ChatGPT Images 2.0)’을 공개했다. API 모델명은 gpt-image-2. DALL-E 2와 DALL-E 3는 오는 5월 12일 완전히 서비스를 종료하며, 이번 모델이 그 공백을 메운다. 단순한 버전 업그레이드가 아니다. 오픈AI는 이번 모델을 두고 “이미지 생성에서 전략적 디자인으로, 도구에서 시각 시스템으로의 도약”이라고 표현했다. 키워드는 ‘추론(reasoning)’. 이미지를 그리기 전에 먼저 생각한다는 개념이다. 챗GPT 이미지 2.0의 가장 큰 변화는 두 가지 동작 모드의 도입이다. ‘인스턴트(Instant) 모드’는 기존처럼 즉각 이미지를 생성하고, ‘씽킹(Thinking) 모드’는 렌더링 전에 구도, 레이아웃, 제약 조건을 검토한 뒤 결과물을 내놓는다. 씽킹 모드에서는 웹 검색도 병행할 수 있어, 실제 데이터나 최신 정보가 필요한 인포그래픽 제작에 정확도를 높일 수 있다. 또한 프롬프트 하나로 최대 8개의 연속된 이미지를 캐릭터·오브젝트 일관성을 유지하며 한 번에 생성하는 기능도 새로 갖췄다. 스토리보드, 멀티포맷 마케팅 자산, 만화 형식의 콘텐츠 제작이 단일 요청으로 가능해진 셈이다. 오픈AI는 챗GPT 이미지 2.0을 두고 “이미지 생성에서 렌더링 단계로, 도구에서 비주얼 시스템으로 나아가는 발전”이라고 밝혔다. 해상도도 높아졌다. 최대 2K(2000픽셀)까지 지원하며, 3:1에서 1:3까지 넓은 종횡비를 커버한다. 와이드 배너, 프레젠테이션 슬라이드, 세로형 모바일 화면, 북마크, SNS 그래픽까지 별도 편집 없이 바로 사용 가능한 포맷으로 출력된다. 그동안 이미지 생성 AI의 아킬레스건은 텍스트 처리 능력이었다. 메뉴판 하나 만들면 존재하지 않는 요리 이름이 튀어나오고, 포스터 한 장 생성하면 영어조차 뭉개져 나왔다. 챗GPT 이미지 2.0은 이 문제를 정면 돌파했다. UI 레이블, 로고, 캡션, 밀도 높은 레이아웃 등 기존 모델들이 취약했던 영역에서 뚜렷한 개선을 보였고, 특히 비라틴 문자 처리가 대폭 향상됐다. 일본어, 한국어, 중국어, 힌디어, 벵골어 등의 텍스트가 이제 별도 수정 작업 없이 곧바로 사용 가능한 수준으로 렌더링된다. TechCrunch의 테스트에 따르면, DALL-E 3로 멕시코 음식 메뉴판을 생성하면 “enchuita”, “churiros”, “burrto” 같은 엉터리 단어들이 등장했지만, 챗GPT 이미지 2.0으로 동일한 요청을 하면 실제 식당에 바로 갖다 쓸 수 있는 수준의 결과물이 나왔다. 스타일 재현 능력도 향상됐다. 사실적인 사진부터 시네마틱 스틸, 픽셀 아트, 망가까지 각 시각 언어의 질감, 조명, 구도, 세부 표현이 이전보다 훨씬 정확하게 구현된다. 챗GPT 이미지 2.0은 챗GPT 웹·앱뿐 아니라 오픈AI의 코딩 에이전트 플랫폼 코덱스(Codex)에도 통합됐다. 앱 개발, 슬라이드 제작 등 작업을 하면서 같은 환경 내에서 UI 시안이나 프로토타입 이미지를 바로 생성하고, 결과물을 실제 프로덕트에 바로 반영할 수 있다. 별도 API 키 없이 기존 챗GPT 구독으로 사용 가능하다. API 개발자에게는 토큰 기반 요금 체계가 적용된다. 인풋 텍스트 토큰 100만 개당 5달러, 아웃풋 텍스트 토큰 100만 개당 10달러, 인풋 이미지 토큰 100만 개당 8달러, 아웃풋 이미지 토큰 100만 개당 30달러다. 표준 모드 1024×1024 고품질 이미지 기준으로 이미지당 약 0.21달러 수준이다. 씽킹 모드는 추론 토큰이 추가돼 레이아웃이 복잡한 결과물일수록 비용이 높아진다. 접근 권한은 차등 적용된다. 인스턴트 모드는 무료 사용자를 포함한 모든 챗GPT 이용자에게 제공되며, 씽킹 모드는 플러스(Plus)·프로(Pro)·비즈니스(Business) 유료 구독자에게만 허용된다. 무료 이용자는 하루 최대 5장을 생성할 수 있다. 지금 이미지 생성 AI 시장은 3파전이다. 구글(Google)은 지난해 나노 바나나(Nano Banana)와 나노 바나나 프로를 잇따라 내놓으며 기세를 올렸다. 특히 나노 바나나 프로는 인포그래픽과 에디토리얼 레이아웃 분야에서 강세를 보이며 LM 아레나(LM Arena) 텍스트-이미지 리더보드 1위 자리를 꿰찼다. 지난달 기준 오픈AI의 gpt-image-1.5는 2위에 머물러 있었다. 수요가 폭발적으로 늘자 구글은 최근 무료 사용자의 이미지 생성을 일 2회로 제한하기도 했다. 미드저니(Midjourney)는 외부 투자 없이 연간 매출 5억 달러에 달하는 독특한 사례다. 사용자 2100만 명의 디스코드 커뮤니티를 기반으로 시장 점유율 26.8%를 유지하고 있으며, 최근에는 영상 생성 영역으로도 확장을 시도하고 있다. 이번 릴리즈를 앞두고 LM 아레나에 ‘maskingtape-alpha’, ‘gaffertape-alpha’, ‘packingtape-alpha’ 등 코드명을 단 익명 모델들이 먼저 등장했다. 테스터들은 텍스트 렌더링 정확도와 색상 재현력에서 기존과 차원이 다른 수준이라는 평가를 내놨다. 오픈AI는 “이미지는 장식이 아닌 언어다. 좋은 이미지는 좋은 문장처럼 선택하고 배열하고 드러낸다. 메커니즘을 설명하고, 분위기를 연출하고, 아이디어를 검증하고, 주장을 만들어낼 수 있다”고 이번 출시의 의미를 정리했다. gpt-image-1로 지난해 약 7억 장의 이미지를 챗GPT 사용자들이 만들어낸 데서 보듯, 이미지 생성은 이미 챗GPT의 핵심 기능으로 자리잡았다. 이번 챗GPT 이미지 2.0이 그 판도를 얼마나 바꿔놓을지 주목된다. 생성 AI 분야의 비디오, 이미지, 오디오, 음악 등 주요 플레이어에 대한 자세한 내용은 여기를 참고하시길. 덧> 와우테일은 기사를 발행하거나 자체 광고 배너용 이미지 수요가 꽤 많은 편인데, 이번에 출시된 기능을 이용해서 몇 가지 배너 이미지를 만들어봤다. “제 점수는 합격입니다”. 외부에 막 보여줘야 하는 것이 아니라면 챗GPT로 배너나 온라인 포스터는 충분히 만들 수 있을 듯. 몇 가지 핵심 키워드를 던져주면 진짜 생각을 해서 마케팅 문구까지 넣어서 잘 만들어준다. 특히 한글이 깨지지 않는 것은 가장 큰 장점인 듯. 사업자등록번호 : 469-87-00966 주소 : 경기도 성남시 분당구 대왕판교로 645번길 12, 5층 에스9호 등록번호 : 경기, 아53600 제호 : 와우테일 발행/편집인 : 김태현 등록일 : 2023년 4월 14일 발행일 : 2019년 3월 6일 청소년보호책임자 : 김종철 문의 : 010-4712-2002 답글 남기기 댓글을 달기 위해서는 로그인해야합니다.

관련 저널 읽기

전체 보기 →