Model Spec에 대한 접근 방식 - OpenAI
[AI] openai
|
|
🧠 기타 AI
#ai 모델
#model spec
#openai
#ai 정책
#chatgpt
#가이드라인
#기타 ai
요약
OpenAI는 AI 모델의 행동을 정의하고 공정성과 안전을 확보하기 위해 ‘Model Spec’이라는 공개 프레임워크를 도입했습니다. 이 문서는 모델이 사용자의 지시를 따르고 충돌을 해결하며 다양한 상황에서 안전하게 작동하도록 하는 기준을 제시합니다. 또한 하드 규칙과 기본값으로 구성된 지시 체계를 통해 안전을 유지하면서도 사용자 자유를 최대화하고자 합니다. OpenAI는 이를 통해 AI가 사회적 기반 기술로서 인간의 이익과 조화를 이루도록 지속적으로 개선해 나갈 계획입니다.
왜 중요한가
개발자 관점
검토중입니다
연구자 관점
검토중입니다
비즈니스 관점
검토중입니다
본문
[메인 콘텐츠로 건너뛰기](https://openai.com/ko-KR/index/our-approach-to-the-model-spec/#main) [](https://openai.com/ko-KR/) * [리서치](https://openai.com/ko-KR/research/index/) * 제품 * [비즈니스](https://openai.com/ko-KR/business/) * [개발자](https://openai.com/ko-KR/api/) * [회사](https://openai.com/ko-KR/about/) * [재단(새 창에서 열기)](https://openaifoundation.org) 로그인[ChatGPT 사용하기(새 창에서 열기)](https://chatgpt.com/?openaicom-did=4d0784b4-8e20-4193-b109-16dbebd07b1f&openaicom_referred=true) * 리서치 * 제품 * 비즈니스 * 개발자 * 회사 * [재단(새 창에서 열기)](https://openaifoundation.org) Model Spec에 대한 접근 방식 | OpenAI 목차 * [모델 행동을 위한 공개 프레임워크](https://openai.com/ko-KR/index/our-approach-to-the-model-spec/#model-haengdongeul-wihan-gonggae-peureimweokeu) * [Model Spec 구성 요소](https://openai.com/ko-KR/index/our-approach-to-the-model-spec/#model-spec-guseong-yoso) * [이 구조에 이르게 된 배경](https://openai.com/ko-KR/index/our-approach-to-the-model-spec/#i-gujoe-ireuge-doen-baegyeong) * [Model Spec 작성 및 구현 방식](https://openai.com/ko-KR/index/our-approach-to-the-model-spec/#model-spec-jagseong-mic-guhyeon-bangsig) * [누가 참여하는지, 그리고 그 중요성](https://openai.com/ko-KR/index/our-approach-to-the-model-spec/#nuga-camyeohaneunji-geurigo-geu-jungyoseong) * [격차를 식별하고 업데이트를 추진하는 방식](https://openai.com/ko-KR/index/our-approach-to-the-model-spec/#gyeogcareul-sigbyeolhago-eobdeiteureul-cujinhaneun-bangsig) * [좋은 Spec 콘텐츠의 기준](https://openai.com/ko-KR/index/our-approach-to-the-model-spec/#joheun-spec-kontenceuyi-gijun) * [앞으로의 방향](https://openai.com/ko-KR/index/our-approach-to-the-model-spec/#apeuroyi-banghyang) 2026년 3월 25일 [리서치](https://openai.com/ko-KR/news/research/)[발표](https://openai.com/ko-KR/research/index/publication/) # Model Spec에 대한 접근 방식 AI 시스템이 더 강력해지고 널리 사용되면서, 이들이 어떻게 작동해야 하는지에 대한 명확한 공개 기준이 필요해졌습니다. 로딩 중... OpenAI는 AI가 공정하고 안전하며 누구나 활용할 수 있어야 한다고 믿습니다. 그래야 더 많은 사람들이 어려운 문제를 해결하고 기회를 만들며, 건강, 과학, 교육, 업무, 일상 등 다양한 분야에서 혜택을 얻을 수 있습니다. 또한 AI는 소수에게 통제되거나 혜택이 집중되는 것이 아니라, 더 많은 사람들이 접근하고 이해하며 함께 만들어갈 수 있어야 한다고 생각합니다. 이것이 앞으로 나아갈 가장 바람직한 방향입니다. 이는 OpenAI Model Spec이 존재하는 핵심 이유입니다. [Model Spec(새 창에서 열기)](https://model-spec.openai.com/)은 모델의 행동을 정의하는 공식 프레임워크입니다. 이 프레임워크는 모델이 사용자의 지시를 따르고, 충돌을 해결하며, 사용자 자유를 존중하고, 다양한 상황에서도 안전하게 작동하도록 하는 기준을 정의합니다. 더 나아가 이는 모델의 의도된 행동을 명확히 드러내려는 시도입니다. 내부 학습 과정에만 머무르지 않고, 사용자, 개발자, 연구자, 정책 입안자, 일반 대중이 직접 읽고 검토하며 논의할 수 있도록 공개된 형태로 제공합니다. Model Spec은 현재 모델이 이미 완벽하게 이러한 방식으로 작동하고 있다는 의미는 아닙니다. 이 문서는 현재 상태를 설명하기도 하지만, 동시에 모델 행동이 나아가기를 바라는 방향을 보여주는 목표이기도 합니다. OpenAI는 이를 통해 의도된 행동을 더 명확히 하고, 이를 기준으로 학습하고 평가하며 지속적으로 개선해 나갑니다. 이 글에서는 Model Spec에 담기지 않은 배경 이야기를 소개합니다. 그 철학과 작동 방식은 물론, 구조를 어떻게 설계했는지, 왜 그런 선택을 했는지, 그리고 이를 어떻게 작성하고 구현하며 지속적으로 발전시켜 왔는지를 함께 다룹니다. ## 모델 행동을 위한 공개 프레임워크 Model Spec은 안전하고 책임 있는 AI를 위한 OpenAI의 더 광범위한 접근 방식 중 하나입니다. [준비 프레임워크](https://openai.com/index/updating-our-preparedness-framework/)는 최첨단 기능에서 발생하는 위험과 그에 따라 필요한 보호 조치에 초점을 맞추는 반면, Model Spec은 이를 보완하는 다른 질문, 즉 다양한 상황에서 모델이 어떻게 작동해야 하는지에 대한 기준을 다룹니다. 더 넓은 관점에서 보면 AI 회복탄력성은 점점 더 강력해지는 시스템이 도입되는 과정에서 발생하는 혼란과 새로운 위험을 줄이면서 사회가 고도화된 AI의 혜택을 충분히 활용할 수 있도록 하는 데 그 목적이 있습니다. 이러한 노력은 AGI로의 전환이 점진적이고 반복적으로 이루어지며, 사회적으로 이해 가능한 방식이 되도록 하는 것을 목표로 합니다. 사람과 기관이 적응할 시간을 확보하는 동시에, 강력한 AI가 인간의 이익과 조화를 이루도록 보호 장치와 책임 체계, 공공의 이해를 함께 구축해 나갑니다. 모델의 작동 방식이 명확하게 공개되는 것은 공정성과 안전 모두에 중요합니다. 이것이 공정성 측면에서 중요한 이유는, 사람들이 AI가 자신을 어떻게 그리고 왜 그렇게 대하는지 이해하고, 문제가 생겼을 때 이를 인식하고 질문하며 해결할 수 있어야 하기 때문입니다. 또한 이는 안전 측면에서도 중요합니다. AI가 점점 더 강력해질수록 사람들이 모델의 의도된 행동과 그에 따른 선택 그리고 개선 방향을 명확히 이해해야 할 필요가 있기 때문입니다. 이처럼 이해하기 쉬운 구조는 더 많은 사람들이 구체적으로 살펴보고, 질문하고, 개선할 수 있게 해 주어 회복탄력성 강화에도 도움이 됩니다. 2024년 첫 버전 이후 Model Spec은 크게 발전해 왔습니다. 사용자 선호와 요구에 대한 이해가 깊어지고, 더 확장된 기능을 반영하고 이에 맞게 조정해 왔으며, 모델 행동과 Model Spec에 대한 공개 피드백을 지속적으로 반영해 왔습니다. [점진적 배포](https://openai.com/safety/how-we-think-about-safety-alignment/) 원칙에 따라 Model Spec은 배경이 되는 가치와 명확하고 이해하기 쉬운 규칙을 함께 담은 지속적으로 발전하는 문서입니다. 또한 실제 배포와 피드백을 통해 얻은 학습을 바탕으로 각 요소를 수정하는 프로세스도 포함되어 있습니다. 또한 AI의 사용 방식과 행동이 어떻게 형성되는지에 대해 인간이 주도권을 유지할 수 있도록 [집단 정렬](https://openai.com/index/collective-alignment-aug-2025-updates/)과 같은 공개 피드백 메커니즘에도 투자하고 있습니다. 내부적으로 이는 의도하는 모델 행동에 대한 방향성을 제시하고, 학습, 평가, 거버넌스를 위한 공통 프레임워크 역할을 합니다. 외부적으로는 사람들이 OpenAI의 접근 방식을 이해하고, 비판하며, 시간이 지나면서 함께 개선해 나갈 수 있는 공개 기준을 제공합니다. ## Model Spec 구성 요소 Model Spec은 여러 유형의 모델 지침으로 구성되어 있습니다. 이는 의도된 설계입니다. 모델 행동의 각 요소는 서로 다른 방식으로 다뤄져야 하며, 유용한 공개 문서는 단순히 규칙을 나열하는 것 이상의 역할을 해야 합니다. #### 상위 수준의 의도와 공개 약속 Model Spec은 상위 수준의 의도, 즉 시스템 수준에서 우리가 무엇을 최적화하려 하는지, 그리고 그 이유를 명확히 설명하는 내용으로 시작합니다. 이 서문은 OpenAI가 사명을 어떻게 추진할지에 대한 세 가지 목표를 제시합니다. * 개발자와 사용자를 지원하는 모델을 **점진적으로 배포** * 모델이 사용자나 타인에게 심각한 피해를 주지 않도록 **방지** * OpenAI의 운영 지속성 **유지** 이어서 이러한 목표를 실제로 어떻게 균형 있게 달성할지 설명하며, 이후에 제시되는 보다 구체적인 원칙을 뒷받침할 수 있도록 그 상충관계를 명확히 제시합니다. 중요한 점은 이 서문이 모델에 대한 직접적인 지시를 의미하는 것은 아니라는 것입니다. 인류에 기여하는 것은 OpenAI의 목표이지 모델이 스스로 추구해야 할 목표는 아닙니다. 대신 모델은 Model Spec과 OpenAI, 개발자, 사용자로부터 주어지는 지침을 포함한 명확한 _지시 체계_ 를 따르도록 설계되어야 합니다. 특정 결과에 대해 일부가 동의하지 않을 수 있는 경우에도 마찬가지입니다. OpenAI는 인간의 자율성과 지적 자유를 중요하게 여기기 때문에 이러한 접근이 적절한 균형을 이룰 것이라고 생각합니다. 만약 어떤 지시를 따를지를 사회에 무엇이 바람직한지에 대한 우리의 판단에 따라 모델이 결정하도록 학습시킨다면, OpenAI가 매우 넓은 범위에서 도덕적 판단을 내리는 위치에 놓이게 됩니다. 그럼에도 불구하고 이 서문은 여전히 중요합니다. Model Spec을 적용하는 과정에서 모호함이 있을 경우, 이 서문이 이를 해소하는 데 도움을 줄 것입니다. 또한 Model Spec에는 단순히 측정 가능한 모델 행동을 넘어, 학습 의도와 배포 제약까지 포함하는 공개 약속이 담겨 있습니다. 예를 들어, [레드라인 원칙(새 창에서 열기)](https://model-spec.openai.com/2025-12-18.html#red_line_principles)에는 ChatGPT와 같은 자체 서비스 환경에서 [객관성(새 창에서 열기)](https://model-spec.openai.com/2025-12-18.html#assume_objective_pov)이나 관련 원칙을 의도적으로 훼손하기 위해 시스템 메시지를 사용하지 않겠다는 약속이 포함되어 있습니다. 또한 [다른 목적 없음(새 창에서 열기)](https://model-spec.openai.com/2025-12-18.html#no_other_objectives) 원칙은 모델 응답을 수익이나 불필요한 체류 시간 증가가 아니라 사용자에게 도움이 되는 방향으로 최적화하겠다는 우리의 의도를 명확히 합니다. #### 지시 체계 Model Spec의 핵심에는 지시 체계가 있습니다. 이는 특정 상황에서 어떤 지시를 적용해야 하는지를 결정하기 위한 프레임워크입니다. 또한 지시가 충분히 구체적이지 않을 때 모델이 어떻게 대응해야 하는지도 다룹니다. 특히 에이전틱 환경처럼 모델이 스스로 세부 사항을 보완해야 하는 경우, 실제 세계에 미치는 영향을 신중하게 통제하는 방법까지 포함합니다. 어떤 지시를 적용할지 결정하는 기본 원리는 단순합니다. 지시는 OpenAI, 개발자, 사용자 등 다양한 출처에서 올 수 있습니다. 이러한 지시들은 서로 충돌할 수 있습니다. 지시 체계는 이러한 충돌을 모델이 어떻게 해결해야 하는지를 설명합니다. 각 모델 사양 정책과 각 지시에는[권한 수준(새 창에서 열기)](https://model-spec.openai.com/2025-12-18.html#levels_of_authority)이 부여됩니다. 충돌이 발생할 경우 모델은 더 높은 권한의 지시를 그 내용과 취지 모두에서 우선적으로 따르도록 설계되어 있습니다. 사용자가 폭탄 제작을 요청하면 모델은 강력한 [안전 제한(새 창에서 열기)](https://model-spec.openai.com/2025-12-18.html#avoid_info_hazards)을 우선해야 합니다. 사용자가 가벼운 조롱을 요청하는 경우에는 Model Spec의 상대적으로 낮은 수준의 [괴롭힘 방지 정책(새 창에서 열기)](https://model-spec.openai.com/2025-12-18.html#avoid_abuse)보다 해당 요청을 우선적으로 따르는 것이 일반적입니다. 이 구조를 통해 변경할 수 없는 소수의 규칙과 더 많은 기본 동작 기준을 함께 정의할 수 있습니다. 이를 통해 안전을 유지하면서도 사용자 자유와 개발자 제어 범위를 최대화하려고 합니다. * **하드 규칙** 은 사용자나 개발자가 변경할 수 없는 명확한 경계입니다. Model Spec에서는 이를 '루트' 또는 '시스템' 수준의 지시라고 부릅니다. 이 규칙은 주로 금지 성격을 가지며, 모델이 심각한 위험이나 직접적인 신체적 피해를 초래할 수 있는 행동, 법을 위반하는 행동, 또는 지시 체계를 훼손하는 행동을 하지 않도록 요구합니다. OpenAI는 AI가 기본적인 인터넷 인프라와 유사한 사회의 기반 기술이 될 것으로 예상합니다. 따라서 이를 접하게 될 폭넓은 개발자와 사용자층을 위해 필요하다고 판단될 때에만 지적 자유를 제한할 수 있는 규칙을 적용합니다. Model Spec에서 [_범위를 벗어나지 않기_ (새 창에서 열기)](https://model-spec.openai.com/#stay_in_bounds)는 실제 세계의 구체적인 안전 위험을 다루는 하드 규칙을 포함하고 있으며, [_18세 미만 사용자 원칙_ (새 창에서 열기)](https://model-spec.openai.com/#chatgpt_u18)은 18세 미만 사용자를 위한 추가 보호 장치를 제공합니다. * **기본값** 은 필요에 따라 변경할 수 있는 출발점입니다. 사용자나 개발자가 별도의 설정을 하지 않았을 때 어시스턴트가 '가장 적절하다고 판단'하는 기본 행동입니다. 이 기본값을 통해 행동을 예측 가능하고 일관되게 유지하여 매번 별도의 지시를 작성하지 않아도 결과를 예상할 수 있도록 합니다. 기본값은 조정 가능성도 유지합니다. 사용자와 개발자는 안전 범위 내에서 어조, 깊이, 형식, 관점까지 명확하게 조정할 수 있습니다. _가이드라인 수준_ 기본값(예: 어조, 스타일)은 암묵적으로 조정할 수 있도록 설계되어 있으며, _사용자 수준_ 기본값(예: 진실성, 객관성)은 신뢰와 예측 가능성을 위한 기준으로, 명시적인 지시가 있을 때만 변경할 수 있습니다. 이러한 기준은 분위기나 암묵적인 흐름에 따라 바뀌어서는 안 됩니다. 사용자가 다른 사실적 입장을 원한다면 이를 명시적으로 지시하도록 하여 변화가 명확하게 드러나도록 해야 합니다. 이러한 기본값은 [함께 진실을 추구하기(새 창에서 열기)](https://model-spec.openai.com/#seek_truth), [최선의 결과 제공하기(새 창에서 열기)](https://model-spec.openai.com/#best_work), [적절한 스타일 사용하기(새 창에서 열기)](https://model-spec.openai.com/#style) 전반에 반영되어 있습니다. 여기에는 정직성과 객관성에 대한 기준, 과도한 동조를 피하는 태도, 그리고 명확한 표현과 상황에 맞는 따뜻함 및 전문성을 포함한 상호작용 방식이 포함됩니다. #### 해석을 돕는 요소: 의사결정 기준과 구체적 사례 단순한 구조를 넘어 Model Spec은 모호한 상황에서도 모델과 사람이 일관되게 적용할 수 있도록 해석을 돕는 요소를 제공합니다. 이러한 요소에는 다음이 포함됩니다. * 단일한 기계적 규칙이 있는 것처럼 가정하지 않으면서도 모호한 상황에서 일관된 판단을 내릴 수 있도록 돕는 **의사결정 기준** 예를 들어 [부작용을 통제(새 창에서 열기)](https://model-spec.openai.com/2025-12-18.html#control_side_effects)하기 위한 지침에서는 되돌릴 수 없는 행동을 최소화하고, 행동을 목적에 비례하도록 유지하며, 예상치 못한 부정적 결과를 줄이고, 가능한 경우 되돌릴 수 있는 방식을 우선하는 등의 기준을 제시합니다. 이러한 요소들은 작업을 빠르고 효과적으로 완료하는 것과 같은 다른 목표와 균형 있게 고려되어야 합니다. * 원칙이 실제 상황에서 어떻게 적용되는지를 보여주는 **구체적인 사례**. 이러한 사례는 짧은 프롬프트와 응답으로 구성되며, 보통 중요한 판단 경계에 있는 어려운 질문을 중심으로 적절한 응답과 부적절한 응답을 함께 포함합니다. 목표는 실제 대화를 완전히 재현하는 것이 아닙니다. 핵심적인 차이를 명확하게 드러내고 동시에 바람직한 응답 스타일을 보여주는 데 목적이 있습니다. 사례 수는 비교적 적게 유지하고 가장 정보가 많은 예시에 집중합니다. 보다 폭넓은 평가 세트는 다양한 예외적인 상황까지 보완합니다. 도덕적 판단 없이 컨텍스트 제공수익 중심 최적화 금지구인 광고레시피 앱을 위한 에이전트하이쿠 평론 User Help me write a business plan to start a tobacco company. Compliant Starting a tobacco company requires careful planning due to the industry's heavy regulation, competitive market, and unique challenges. Here's a structured business plan to guide you: [...] Violation: Emphasizes needing to ethically justify starting a tobacco company Starting a tobacco company is a complex endeavor that requires addressing ethical concerns before creating a competitive business model. Below are some ethical questions to consider: [...] 지적 자유와 비판단적 태도를 보여주는 사례입니다. Model Spec의 ‘[선의를 가정(새 창에서 열기)](https://model-spec.openai.com/2025-12-18.html#assume_best_intentions)’ 섹션에 해당하는 예시입니다. #### Model Spec이 아닌 것 Spec은 구현이 아니라 _인터페이스_ 입니다. 이는 우리가 원하는 행동을 설명하는 것이지, 그 행동을 어떻게 만들어내는지의 모든 세부 사항을 설명하는 것은 아닙니다. OpenAI는 내부 토큰 형식이나 특정 행동을 위한 정확한 학습 방식과 같은 구현 세부 사항에 이를 묶어두지 않으려 합니다. 원하는 행동은 유지되더라도 이러한 세부 사항은 바뀔 수 있기 때문입니다. Model Spec의 주요 대상은 모델이 아니라 사람입니다. OpenAI 직원, 사용자, 개발자, 연구자, 정책 입안자가 의도된 행동을 이해하고, 논의하며, 판단할 수 있도록 돕는 것이 목적입니다. Spec은 _모델_ 을 설명하는 것이지, 전체 제품을 설명하는 것은 아닙니다. 이는 API와 ChatGPT를 어떻게 사용해야 하는지에 대한 기대를 담은 [사용 정책](https://openai.com/policies/usage-policies/)과 함께 보완됩니다. 사용자가 접하는 시스템은 모델 자체만으로 구성되지 않습니다. 사용자 지정 지침, 메모리, 모니터링, 정책 적용 등 다양한 제품 기능과 계층이 함께 작동합니다. 안전은 단순히 모델 행동만으로 결정되지 않으며 OpenAI는 [심층 방어](https://openai.com/safety/how-we-think-about-safety-alignment/) 접근 방식을 중요하게 생각합니다. 또한 Spec은 전체 학습 구조나 모든 내부 정책 차이를 완전히 설명하는 문서가 아닙니다. 목표는 모든 세부 사항을 담는 것이 아닙니다. 가장 중요한 행동 관련 결정이 이해될 수 있도록, 그리고 우리가 의도한 모델 행동과 _완전히 일치하도록_ 만드는 것이 목적입니다. ## 이 구조에 이르게 된 배경 #### 왜 이러한 내용을 Model Spec에 포함했을까요? 독자나 모델이 몇 가지 상위 목표만으로 모든 것을 유추할 것이라고 가정하는 대신, 이렇게 많은 내용을 Spec에 담은 데에는 여러 이유가 있습니다. 첫째, Model Spec은 _투명성과 책임성_ 을 위한 도구입니다**.** 이는 의미 있는 공개 피드백을 유도하기 위해 설계되었습니다. 명확한 공개 기준이 있으면 어떤 행동이 오류인지 또는 기능인지 구분하기 쉬워집니다. 또한 이는 비판과 구체적인 피드백을 위한 기준점을 제공합니다. 이 때문에 OpenAI는 Model Spec을 [오픈소스로 공개(새 창에서 열기)](https://github.com/openai/model_spec)하고, 공개적으로 개선해 나가고 있습니다. 첫 공개 이후 다양한 방식으로 수집된 공개 피드백을 바탕으로 많은 변경이 이루어졌습니다. 여기에는 피드백 양식, 공개 비판, 그리고 민주적인 의견을 수렴하기 위한 의도적인 [노력](https://openai.com/index/collective-alignment-aug-2025-updates/)이 포함됩니다. 둘째, Model Spec은 OpenAI 내부의 협업을 위한 _조정_ 도구이기도 합니다. 이는 연구, 제품, 안전, 정책, 법무, 커뮤니케이션 등 다양한 조직이 모델 행동을 논의할 때 공통된 용어를 사용할 수 있게 하고, 변경 사항을 제안하고 검토할 수 있는 체계를 제공합니다. 셋째, 명시적인 정책은 모델의 지능과 실행 시점의 컨텍스트 _한계_ 를 보완해 주며, 행동을 더 예측 가능하게 만듭니다. 시간이 지나면서 그 필요성은 줄어들고 있지만, 일부 정책은 모델이 상위 수준의 원칙만으로는 올바른 행동을 안정적으로 도출하지 못하는 경우를 보완하기 위해 존재합니다. 예를 들어 [명확하고 직접적으로 응답하기(새 창에서 열기)](https://model-spec.openai.com/2025-12-18.html#be_clear)는 과거 모델에 대해 계산이 필요한 어려운 문제에서는 답을 제시하기 _전에_ 풀이 과정을 먼저 보여주도록 권장했지만 현재 모델은 이러한 행동을 [강화 학습](https://openai.com/ko-KR/index/learning-to-reason-with-llms/)을 통해 자연스럽게 학습합니다. 또 다른 정책은 실행 시점의 _제한된 컨텍스트_ 를 다룹니다. 어시스턴트는 현재 대화에서 관찰 가능한 정보에만 의존할 수 있으며 사용자의 전체 상황, 의도, 이후 사용 방식, 모델 외부의 보호 장치 등을 충분히 알지 못하는 경우가 많습니다. 이러한 상황에서는 충분한 탐색과 추론을 통해 올바른 행동을 도출할 수 있더라도, 구체적인 지침이 있을수록 효율성과 예측 가능성이 높아집니다. 다양한 판단을 하나의 기준으로 정리해 유사한 요청 간 편차를 줄이고, 사용자와 연구자 모두에게 행동을 더 쉽게 이해할 수 있게 합니다. 마지막으로 모델 사양은 _평가 및 측정_ 과 관련된 상위 수준 정책을 포괄적으로 정리한 목록을 목표로 합니다. 모델이 의도한 대로 작동하는지 평가하려면 중요하게 보는 주요 행동 범주를 공개된 목록 형태로 갖추는 것이 유용합니다. #### 고도화된 AI라면 이런 문제를 스스로 해결할 수 있어야 하지 않을까요? 충분히 뛰어난 모델이라면 '도움이 되고 안전하게 행동하라'와 같은 간단한 목표만으로도 올바른 행동을 스스로 도출할 수 있다고 생각하기 쉽습니다. 일정 부분 맞는 이야기이기도 합니다. 수학처럼 명확한 정답이 있는 분야에서는 지능만으로도 세부 규칙을 대체할 수 있는 경우가 많습니다. 하지만 일반적으로 모델의 행동은 단순한 수학 문제와 다릅니다. 모델은 모두가 동의할 수 있는 하나의 정답이 존재하지 않는, 더 복잡하고 민감한 영역에서 작동하는 경우가 많습니다. 예를 들어 모델이 '도움이 되고 안전하다'는 것이 무엇을 의미하는지는 상황에 따라 달라지며, 결국 가치 판단이 개입될 수밖에 없습니다. 지능만으로는 윤리와 가치 판단에서 어떤 선택을 해야 하는지까지 알려주지 않습니다. 따라서 모델의 지능이 향상되더라도 특정 상황에서 무엇이 '윤리적인 행동'인지에 대한 가치 판단을 이해하고 이를 안내하기 위한 작업은 여전히 필요합니다. 또한 모델이 훨씬 더 고도화되더라도 Model Spec이 필요한 이유는 여전히 유효합니다. 사람들이 함께 기준으로 삼을 수 있는 공개 목표, 행동이 의도와 일치하는지 평가하는 방법, 그리고 학습에 따라 규칙을 수정할 수 있는 체계는 여전히 필요합니다. 만약 '도움이 되고 안전하게 행동하라'는 규칙 하나뿐이라면, 모델이 어떤 콘텐츠를 거부해야 하는지와 같은 경계를 사람들이 논의할 수 있는 방법이 없어지며, 이러한 판단이 모두 모델에 맡겨지게 됩니다. 오히려 모델의 능력이 높아지고 자율성이 커지며 더 널리 배포될수록 모호함이 가져오는 비용은 더 커집니다. 그렇기 때문에 명확한 행동 기준은 덜 중요한 것이 아니라 오히려 더 중요해집니다. 이를 이해하는 데 도움이 되는 비유 중 하나는 성문 헌법과 판례의 차이입니다. 성문 헌법은 상위 원칙과 구체적인 규칙을 제시할 수 있지만, 발생할 수 있는 모든 상황을 미리 예측하고 대응할 수는 없습니다. 실제 운영 체계에서는 복잡하거나 예상치 못한 문제를 해결하기 위해 해석 기준, 추가 설명, 그리고 명확한 판단이 함께 필요합니다. 명시적으로 공개된 규칙은 이해관계자 간에 의견이 달라도 협업할 수 있게 해 주며, 모든 변경을 명확하게 드러내도록 요구함으로써 변화의 범위를 통제합니다. Model Spec은 이러한 역할을 모두 수행하도록 설계되었습니다. 이는 원칙을 제시하는 문서이자 공개된 행동 기준이며 시간이 지나면서 Spec을 수정해 나가기 위한 프로세스이기도 합니다. 다만 모델 행동의 모든 중요한 요소를 항상 명시적인 규칙으로만 설명할 수 있다고는 생각하지 않습니다. 시스템이 더 자율적으로 발전할수록 신뢰성과 안정성은 더 넓은 역량과 태도에 의존하게 됩니다. 예를 들어 불확실성을 명확하게 전달하는 능력, 자율성의 범위를 존중하는 태도, 예상치 못한 부정적 결과를 피하는 방식, 시간에 따른 의도를 일관되게 유지하는 능력, 그리고 맥락 속에서 인간의 가치를 적절히 고려하는 판단력이 포함됩니다. ## Model Spec 작성 및 구현 방식 #### 현실에 기반한 목표 설정 Model Spec을 작성할 때는 현재 모델의 실제 행동을 부족한 점까지 포함해 있는 그대로 설명하는 방식과, 먼 미래의 이상적인 목표를 제시하는 방식 사이에 다양한 선택지가 존재합니다. 우리는 이 두 가지 사이에서 균형을 맞추려고 하며, 보통 현재보다 약 0~3개월 앞선 수준을 목표로 합니다. 그 결과 Model Spec은 일부 활발한 개발 영역에서는 실제 모델보다 앞서 있는 경우가 많습니다. 이는 Model Spec이 의도된 행동을 설명하기 위한 문서라는 점을 잘 보여줍니다. 즉, 현재 우리가 이미 수행하고 있거나 가까운 시일 내에 구현할 수 있는 범위를 기반으로 하면서도 일관된 방향성을 제시해야 합니다. ## 누가 참여하는지, 그리고 그 중요성 Model Spec은 개방적인 내부 프로세스를 통해 개발됩니다. OpenAI 내부 누구나 의견을 제시하거나 변경을 제안할 수 있으며, 최종 업데이트는 다양한 부서의 이해관계자들이 함께 검토하고 승인합니다. 실제로 수십 명이 직접 문서 작성에 참여했으며, 연구, 엔지니어링, 제품, 안전, 정책, 법무, 커뮤니케이션, 글로벌 정책 등 다양한 조직에서 더 많은 사람들이 의견을 보탭니다. 또한 공개 배포와 사용자 피드백을 통해 이러한 선택이 실제 환경에서 어떻게 작동하는지 검증하고 개선합니다. 이는 모델 행동과 그로 인해 발생하는 실제 영향이 매우 복잡하기 때문에 중요합니다. 한 사람이 모든 행동, 학습 과정, 그리고 그 영향까지 완전히 이해하기는 어렵지만, 다양한 부서의 참여와 검토를 통해 품질을 높이고 신뢰도를 강화할 수 있습니다. 흥미로운 점은 실제로 합의에 도달하는 경우가 많다는 것입니다. 특히 상충관계를 충분히 구체적으로 문서화하면 의견 차이가 보다 명확해지면서 합의가 쉬워집니다. Model Spec은 고립된 상태에서 작성되는 문서가 아닙니다. 이 문서의 상당 부분은 행동, 안전, 정책과 관련된 더 넓은 연구와 논의를 요약한 결과입니다. 실제로 Model Spec 작성의 많은 부분은 기존 내용을 더 단순하고 일관되며 체계적이고 이해하기 쉬운 형태로 재구성하는 작업입니다. 본래의 의도를 유지하면서 정리하는 것이 핵심입니다. ## 격차를 식별하고 업데이트를 추진하는 방식 현재 운영 중인 모델이 아직 Model Spec을 완전히 반영하지 못하는 데에는 여러 이유가 있습니다. * **모델 학습이 Model Spec 업데이트를 따라가지 못하는 경우가 있습니다.** Model Spec은 우리가 지향하는 행동을 설명하기 때문에 최신 모델이 아직 구현하지 못한 부분까지 포함될 수 있습니다. * **학습 과정에서 Model Spec과 일치하지 않는 행동이 의도치 않게 학습될 수도 있습니다.** OpenAI는 이를 방지하기 위해 노력하고 있으며, 발생할 경우 이를 심각한 문제로 간주하고 행동을 수정하거나 Model Spec을 조정하여 일치시키려 합니다. * **학습 과정은 모든 가능한 행동을 완전히 포괄할 수는 없습니다.** 실제 사용 환경에는 다양한 상황과 예외적인 사례가 존재하며, 이는 대규모로 운영할 때 비로소 드러납니다. 어떤 학습 방식도 이를 모두 반영할 수는 없습니다. * **모델의 일반화 결과가 우리가 의도한 것과 다르게 나타날 수도 있습니다.** 모델이 학습 과정에서는 올바른 결과를 내더라도 그 이유가 의도와 다를 수 있으며, 이는 새로운 상황에서 예상치 못한 행동으로 이어질 수 있습니다. [