@
@_lewtun
twitter
1 week 전
우리는 TRL의 정책 기반 증류 트레이너를 처음부터 다음과 같이 재구성했습니다. 🐳 1000억 개 이상의 매개변수로 대규모 교사 지원 ⚡️ 멋진 버퍼 및 페이로드 최적화 덕분에 훈련 속도가 40배 이상 빨라졌습니다. 즉, 이제 규모에 관계없이 Llama, Qwen 및 Gemma 제품군의 모델을 추출할 수 있습니다! 모든 최적화와 아름다운 애니메이션을 포함한 기술 심층 …
원문 보기
우리는 TRL의 정책 기반 증류 트레이너를 처음부터 다음과 같이 재구성했습니다. 🐳 1000억 개 이상의 매개변수로 대규모 교사 지원 ⚡️ 멋진 버퍼 및 페이로드 최적화 덕분에 훈련 속도가 40배 이상 빨라졌습니다. 즉, 이제 규모에 관계없이 Llama, Qwen 및 Gemma 제품군의 모델을 추출할 수 있습니다! 모든 최적화와 아름다운 애니메이션을 포함한 기술 심층 …