What is DeepCoder-14B-Preview?
開發高效能的程式碼推理模型通常需要在封閉系統中進行,或者需要大量的參數。DeepCoder-14B-Preview 提供了一個強大的替代方案。這是一個完全開源的 140 億參數大型語言模型 (LLM),透過先進的分散式強化學習 (RL) 技術,從 DeepSeek-R1-Distilled-Qwen-14B 精心微調而來。它所提供的程式碼生成和推理能力,足以媲美像 OpenAI 的 o3-mini 等領先的專有模型,這已通過其在具有挑戰性的基準測試中的出色表現得到證明。如果您的工作涉及在開放框架內利用或推進最先進的程式碼智慧,DeepCoder 提供了一個穩健、高效且易於存取的基礎。
主要特色
🏆 達到頂級效能: 在 LiveCodeBench 的最新分割(v5,2024/8/1-2025/2/1)中,達到令人印象深刻的 60.6% Pass@1 準確率,並獲得 1936 的 Codeforces 評級(95.3 百分位數),展現出與 o3-mini(低)和 o1(低)等模型相當的能力。
↔️ 擅長處理長上下文: 在推理過程中,能夠很好地泛化到 64K 的上下文長度,這與其 32K 的訓練上下文限制相比是一個巨大的飛躍。這是透過迭代的上下文延長與過長過濾相結合來實現的,從而在廣泛的程式碼庫中保持推理能力。
🧠 利用先進的 RL 訓練: 使用 GRPO+ 進行微調,GRPO+ 是 GRPO 演算法的一個穩定變體,其中融入了來自 DAPO 的洞察(例如,無熵/KL 損失、過長過濾、clip high)。訓練使用了精心策劃的約 24K 個高品質、可驗證的程式碼問題資料集。
🔓 受益於完全開源: 完全存取模型權重、精選的訓練資料集 (Taco-Verified, PrimeIntellect SYNTHETIC-1, LCB subset)、具有系統優化的
verl-pipeline訓練程式碼以及詳細的訓練日誌 (Wandb)。這種透明度促進了可重現性和社群驅動的創新。⚙️ 利用高效架構: 僅使用 140 億個參數即可提供前沿水準的效能,與明顯更大的模型相比,這是一個更節省資源的選擇,同時保持了具有競爭力的程式碼推理能力。
使用案例
競賽程式設計輔助: 您可以使用 DeepCoder 來應對來自 Codeforces 或 LiveCodeBench 等平台的複雜演算法挑戰。其強大的基準測試效能可以轉化為生成潛在的解決方案、調試現有程式碼,甚至透過利用其推理能力來幫助理解複雜的問題陳述。
複雜程式碼庫的開發與分析: 採用 DeepCoder 的 64K 上下文視窗來執行需要理解大型程式碼片段的任務。這可能涉及重構廣泛的函式、跨多個檔案生成複雜的樣板程式碼,或分析複雜專案架構中的依賴關係。
AI/ML 研究與客製化: 研究人員和開發人員可以深入研究開源資產,以探索用於程式碼生成的 RL 進展。試驗長上下文訓練方法,分析 GRPO+ 配方的影響,或使用 DeepCoder 作為基礎模型來構建專門的程式碼助理或針對特定程式語言或領域量身定制的工具。
結論
DeepCoder-14B-Preview 代表了對開源 AI 領域的重大貢獻,它提供了高效能、卓越的長上下文泛化能力和參數效率的強大組合。它在嚴格的資料策劃和精煉的 RL 技術基礎上取得的成功,證明了開放模型可以達到與領先的封閉系統相同的水平。透過提供對模型、資料和訓練方法的完全存取權,DeepCoder 使全球的開發人員和研究人員能夠在此基礎上進行構建,並加速 AI 驅動的程式碼智慧的發展。
常見問題
問:DeepCoder-14B-Preview 與其基礎模型 DeepSeek-R1-Distill-Qwen-14B 的主要區別是什麼? 答:主要的區別在於使用分散式強化學習 (GRPO+) 進行的廣泛微調,專門針對程式碼推理任務。此 RL 階段使 LiveCodeBench Pass@1 的絕對改善幅度達到 8%,並大大增強了模型將其推理能力泛化到更長上下文長度(64K 時為 60.6%,而基礎模型為 53.0%)的能力。
問:DeepCoder 的效能與 o3-mini 等模型的定量比較如何? 答:在關鍵基準測試中,DeepCoder 取得了相當的結果:在 LiveCodeBench 上達到 60.6% 的 Pass@1(o3-mini-2025-1-31 low 為 60.9%),在 HumanEval+ 上達到 92.6%(與 o3-mini low 相同)。它在僅有 140 億個參數且完全開源的情況下實現了這種對等性。
問:使用 DeepCoder-14B-Preview 的建議設定是什麼? 答:開發人員建議避免使用單獨的系統提示;而是將所有指示包含在使用者提示中。建議的最佳生成參數為
temperature=0.6和top_p=0.95。至關重要的是,將max_tokens設定為至少 64000,因為該模型通常會由於其訓練而產生冗長、詳細的回應,並且截斷可能會對效能產生負面影響。問:在哪裡可以找到實際的模型檔案和相關資源? 答:模型權重託管在 Hugging Face 上(🤗 HF Model)。精選的資料集(🤗 HF Dataset)、
verl-pipeline訓練程式碼(👨💻 Github)、詳細的訓練日誌(📈 Wandb)和評估日誌(🔎 Eval Logs)也可透過原始公告中提供的連結公開取得。問:DeepCoder 僅專門用於程式碼編寫,還是可以處理其他推理任務? 答:雖然它的主要訓練重點是程式碼推理,但底層能力具有泛化性。值得注意的是,它在未經特定數學微調的情況下,在 AIME 2024 數學基準測試中獲得了 73.8% 的分數,表明其在相關的邏輯推理問題方面表現出色,優於其基礎模型的分數 (69.7%)。





