What is DeepCoder-14B-Preview?
고성능 코드 추론 모델을 개발하려면 폐쇄형 시스템을 탐색하거나 막대한 매개변수 수가 필요한 경우가 많습니다. DeepCoder-14B-Preview는 강력한 대안을 제시합니다. 이는 완전한 오픈 소스 140억 매개변수 대규모 언어 모델(LLM)로, 고급 분산 강화 학습(RL)을 사용하여 DeepSeek-R1-Distilled-Qwen-14B에서 세심하게 미세 조정되었습니다. 이 모델은 OpenAI의 o3-mini와 같은 주요 독점 모델과 어깨를 나란히 하는 코드 생성 및 추론 기능을 제공하며, 까다로운 벤치마크에서 강력한 성능을 입증합니다. 개방형 프레임워크 내에서 최첨단 코드 인텔리전스를 활용하거나 발전시키는 데 관심이 있다면 DeepCoder는 강력하고 효율적이며 접근 가능한 토대를 제공합니다.
주요 기능
🏆 최고 수준의 성능 달성: 최근 LiveCodeBench 분할(v5, 2024년 8월 1일~2025년 2월 1일)에서 60.6%의 Pass@1 정확도를 달성하고 1936 Codeforces 레이팅(95.3 백분위수)을 확보하여 o3-mini(low) 및 o1(low)과 같은 모델과 비슷한 성능을 보여줍니다.
↔️ 긴 컨텍스트에서 탁월한 성능: 추론 중에 64K 컨텍스트 길이로 놀라울 정도로 잘 일반화되며, 이는 32K 훈련 컨텍스트 제한에서 크게 도약한 것입니다. 이는 반복적인 컨텍스트 길이 연장과 과장 필터링을 결합하여 광범위한 코드베이스에서 추론을 유지함으로써 달성됩니다.
🧠 고급 RL 훈련 활용: DAPO에서 얻은 통찰력(예: 엔트로피/KL 손실 없음, 과장 필터링, 높은 값 클립)을 통합한 GRPO 알고리즘의 안정화된 변형인 GRPO+를 사용하여 미세 조정되었습니다. 훈련에는 신중하게 선별된 약 24,000개의 고품질, 검증 가능한 코딩 문제 데이터 세트가 사용되었습니다.
🔓 완전한 오픈 소스 이점: 모델 가중치, 선별된 훈련 데이터 세트(Taco-Verified, PrimeIntellect SYNTHETIC-1, LCB 하위 집합), 시스템 최적화를 갖춘
verl-pipeline훈련 코드, 자세한 훈련 로그(Wandb)에 대한 완전한 액세스 권한을 얻으십시오. 이러한 투명성은 재현성 및 커뮤니티 기반 혁신을 촉진합니다.⚙️ 효율적인 아키텍처 활용: 경쟁력 있는 코드 추론 능력을 유지하면서 훨씬 더 큰 모델에 비해 리소스 효율적인 옵션을 제공하는 단 140억 개의 매개변수로 최전선 수준의 성능을 제공합니다.
사용 사례
경쟁적 프로그래밍 지원: DeepCoder를 사용하여 Codeforces 또는 LiveCodeBench와 같은 플랫폼의 복잡한 알고리즘 문제를 해결할 수 있습니다. 강력한 벤치마크 성능은 잠재적인 솔루션을 생성하거나, 기존 코드를 디버깅하거나, 추론 능력을 활용하여 복잡한 문제 설명을 이해하는 데 도움이 됩니다.
복잡한 코드베이스 개발 및 분석: DeepCoder의 64K 컨텍스트 창을 활용하여 대규모 코드 세그먼트의 이해가 필요한 작업을 수행하십시오. 여기에는 광범위한 함수 리팩터링, 여러 파일에 걸쳐 정교한 상용구 코드 생성 또는 복잡한 프로젝트 아키텍처 내의 종속성 분석이 포함될 수 있습니다.
AI/ML 연구 및 사용자 정의: 연구원과 개발자는 오픈 소스 자산을 탐구하여 코드 생성을 위한 RL 발전을 탐색할 수 있습니다. 긴 컨텍스트 훈련 방법론을 실험하고, GRPO+ 레시피의 영향을 분석하거나, DeepCoder를 특정 프로그래밍 언어 또는 도메인에 맞춘 특수 코딩 도우미 또는 도구를 구축하기 위한 기본 모델로 사용할 수 있습니다.
결론
DeepCoder-14B-Preview는 높은 성능, 뛰어난 긴 컨텍스트 일반화 및 매개변수 효율성의 강력한 조합을 제공하여 오픈 소스 AI 환경에 중요한 기여를 합니다. 엄격한 데이터 큐레이션과 세련된 RL 기술을 기반으로 한 성공은 개방형 모델이 주요 폐쇄형 시스템과 동등한 수준을 달성할 수 있음을 입증합니다. 모델, 데이터 및 훈련 방법론에 대한 완전한 액세스를 제공함으로써 DeepCoder는 전 세계 개발자와 연구자가 이 작업을 기반으로 구축하고 AI 기반 코드 인텔리전스의 발전을 가속화할 수 있도록 지원합니다.
FAQ
Q: DeepCoder-14B-Preview는 기본 모델인 DeepSeek-R1-Distill-Qwen-14B와 주로 어떻게 다릅니까? A: 주요 차이점은 특히 코드 추론 작업을 대상으로 하는 분산 강화 학습(GRPO+)을 사용한 광범위한 미세 조정에 있습니다. 이 RL 단계는 LiveCodeBench Pass@1에서 8%의 절대적인 개선을 가져왔고 모델이 추론 능력을 훨씬 더 긴 컨텍스트 길이(64K에서 60.6% 대 기본 모델의 53.0%)로 일반화하는 능력을 상당히 향상시켰습니다.
Q: DeepCoder의 성능은 o3-mini와 같은 모델과 비교하여 정량적으로 어떻습니까? A: 주요 벤치마크에서 DeepCoder는 유사한 결과를 달성합니다. LiveCodeBench에서 60.6% Pass@1(o3-mini-2025-1-31 low의 경우 60.9%) 및 HumanEval+에서 92.6%(o3-mini low와 동일). 단 140억 개의 매개변수와 완전한 오픈 소스로 이 동등성을 달성합니다.
Q: DeepCoder-14B-Preview 사용에 권장되는 설정은 무엇입니까? A: 개발자는 별도의 시스템 프롬프트를 피하는 대신 모든 지침을 사용자 프롬프트에 포함할 것을 권장합니다. 제안된 최적의 생성 매개변수는
temperature=0.6및top_p=0.95입니다. 결정적으로 모델이 훈련으로 인해 종종 길고 자세한 응답을 생성하고 잘림이 성능에 부정적인 영향을 미칠 수 있으므로max_tokens를 최소 64000으로 설정하십시오.Q: 실제 모델 파일 및 관련 리소스는 어디에서 찾을 수 있습니까? A: 모델 가중치는 Hugging Face(🤗 HF Model)에서 호스팅됩니다. 선별된 데이터 세트(🤗 HF Dataset),
verl-pipeline훈련 코드(👨💻 Github), 자세한 훈련 로그(📈 Wandb) 및 평가 로그(🔎 Eval Logs)도 원래 발표에 제공된 링크를 통해 공개적으로 사용할 수 있습니다.Q: DeepCoder는 코딩에만 특화되어 있습니까, 아니면 다른 추론 작업을 처리할 수 있습니까? A: 주요 훈련 초점은 코드 추론이었지만 기본 기능은 일반화됩니다. 특히 특정 수학 미세 조정 없이 AIME 2024 수학 벤치마크에서 73.8%를 획득하여 관련 논리적 추론 문제에 대한 강력한 성능을 나타내며 기본 모델의 점수(69.7%)를 향상시켰습니다.





