DeepCoder-14B-Preview

What is DeepCoder-14B-Preview?

高性能なコード推論モデルの開発では、多くの場合、閉鎖的なシステムを利用したり、膨大なパラメータ数を必要としたりします。DeepCoder-14B-Preview は、これに対する強力な代替手段を提供します。これは、完全にオープンソースの140億パラメータを持つ大規模言語モデル（LLM）であり、DeepSeek-R1-Distilled-Qwen-14B を基に、高度な分散型強化学習（RL）を用いて細心の注意を払ってファインチューニングされています。そのコード生成および推論能力は、OpenAI の o3-mini のような主要なプロプライエタリモデルと肩を並べるほどであり、困難なベンチマークで優れた性能を発揮することで実証されています。もし、オープンなフレームワーク内で最先端のコードインテリジェンスを活用または発展させることを目的としているなら、DeepCoder は堅牢で効率的、かつアクセスしやすい基盤を提供します。

主な特徴

🏆 最高レベルの性能を達成: LiveCodeBench（v5、2024年8月1日～2025年2月1日の最新スプリット）において、60.6%という優れた Pass@1 精度を達成し、Codeforces で1936のレーティング（95.3パーセンタイル）を獲得しており、o3-mini (low) や o1 (low) のようなモデルに匹敵する能力を示しています。
↔️ 長文コンテキストで優れた能力を発揮: 推論時に64Kのコンテキスト長まで驚くほど一般化されており、32Kのトレーニングコンテキスト制限から大幅に飛躍しています。これは、反復的なコンテキスト拡張と過剰長フィルタリングの組み合わせによって実現され、広範なコードベース全体で推論の一貫性を維持します。
🧠 高度な RL トレーニングを活用: GRPO+ を使用してファインチューニングされています。GRPO+ は、DAPO からの洞察（例：エントロピー/KL損失なし、過剰長フィルタリング、高クリップ）を取り入れた GRPO アルゴリズムの安定化されたバリアントです。トレーニングでは、厳選された約24,000件の高品質で検証可能なコーディング問題のデータセットを使用しました。
🔓 完全なオープンソースの恩恵を受ける: モデルの重み、厳選されたトレーニングデータセット（Taco-Verified、PrimeIntellect SYNTHETIC-1、LCB サブセット）、システム最適化を含む verl-pipeline トレーニングコード、詳細なトレーニングログ（Wandb）への完全なアクセスが可能です。この透明性により、再現性とコミュニティ主導のイノベーションが促進されます。
⚙️ 効率的なアーキテクチャを活用: わずか140億のパラメータで最先端のパフォーマンスを提供し、競争力のあるコード推論能力を維持しながら、著しく大規模なモデルと比較して、よりリソース効率の高いオプションを提供します。

ユースケース

競技プログラミング支援: DeepCoder を使用して、Codeforces や LiveCodeBench などのプラットフォームからの複雑なアルゴリズムの課題に取り組むことができます。その強力なベンチマーク性能は、潜在的な解決策の生成、既存のコードのデバッグ、または推論能力を活用して複雑な問題文の理解を助けることに繋がります。
複雑なコードベースの開発と分析: DeepCoder の 64K コンテキストウィンドウを、大規模なコードセグメントの理解を必要とするタスクに活用します。これには、広範な関数のリファクタリング、複数のファイルにわたる洗練されたボイラープレートコードの生成、または複雑なプロジェクトアーキテクチャ内の依存関係の分析などが含まれます。
AI/ML 研究とカスタマイズ: 研究者と開発者は、オープンソースのアセットを深く掘り下げて、コード生成のための RL の進歩を探求できます。長文コンテキストのトレーニング方法を試したり、GRPO+ レシピの影響を分析したり、DeepCoder をベースモデルとして使用して、特定のプログラミング言語またはドメインに合わせた専門的なコーディングアシスタントやツールを構築したりできます。

結論

DeepCoder-14B-Preview は、オープンソースの AI 分野への重要な貢献であり、高性能、卓越した長文コンテキスト一般化、およびパラメータ効率の強力な組み合わせを提供します。厳格なデータキュレーションと洗練された RL 技術に基づいて構築されたその成功は、オープンモデルが主要なクローズドシステムと同等の性能を達成できることを示しています。DeepCoder は、モデル、データ、およびトレーニング方法論への完全なアクセスを提供することにより、世界中の開発者と研究者がこの研究を基に構築し、AI 駆動型コードインテリジェンスの進歩を加速することを可能にします。

FAQ

Q: DeepCoder-14B-Preview は、主にベースモデルである DeepSeek-R1-Distill-Qwen-14B とどのように異なりますか？ A: 主な違いは、コード推論タスクを特にターゲットとする分散型強化学習（GRPO+）を使用した広範なファインチューニングにあります。この RL フェーズにより、LiveCodeBench Pass@1 で8%の絶対的な改善が得られ、モデルの推論能力をより長いコンテキスト長（ベースモデルの 53.0% に対して 64K で 60.6%）に一般化する能力が大幅に向上しました。
Q: DeepCoder のパフォーマンスは、o3-mini のようなモデルと比較して定量的にどうですか？ A: 主要なベンチマークでは、DeepCoder は同等の結果を達成しています：LiveCodeBench で 60.6% の Pass@1 (o3-mini-2025-1-31 low の 60.9% に対して) と、HumanEval+ で 92.6% (o3-mini low と同じ)。これは、わずか140億のパラメータを持ち、完全にオープンソースでありながら、この同等性を達成しています。
Q: DeepCoder-14B-Preview を使用するための推奨設定は何ですか？ A: 開発者は、個別のシステムプロンプトを避けることを推奨しています。代わりに、すべての指示をユーザプロンプトに含めてください。推奨される最適な生成パラメータは temperature=0.6 と top_p=0.95 です。重要なのは、モデルはそのトレーニングにより、長く詳細な応答を生成することが多いため、max_tokens を少なくとも 64000 に設定することです。切り捨てはパフォーマンスに悪影響を与える可能性があります。
Q: 実際のモデルファイルと関連リソースはどこにありますか？ A: モデルの重みは Hugging Face (🤗 HF Model) でホストされています。厳選されたデータセット (🤗 HF Dataset)、verl-pipeline トレーニングコード (👨‍💻 Github)、詳細なトレーニングログ (📈 Wandb)、および評価ログ (🔎 Eval Logs) も、元の発表で提供されているリンクから公開されています。
Q: DeepCoder はコーディング専用ですか、それとも他の推論タスクも処理できますか？ A: 主なトレーニングの焦点はコード推論でしたが、基礎となる能力は一般化されます。特に、AIME 2024 数学ベンチマークでは、特定の数学ファインチューニングなしで 73.8% のスコアを獲得しており、関連する論理的推論問題で優れたパフォーマンスを示しており、ベースモデルのスコア (69.7%) を上回っています。

More information on DeepCoder-14B-Preview

Launched

Pricing Model

Free

Starting Price

Global Rank

Month Visit

<5k

Tech used

DeepCoder-14B-Preview was manually vetted by our editorial team and was first featured on 2025-04-10.

DeepCoder-14B-Preview 代替ソフト

もっと見る代替ソフト

DeepSeek-R1
1

Visit

深層推論モデルDeepSeek-R1は、強化学習(RL)によって強化された最先端技術であり、数学、コーディング、推論タスクにおいてベンチマークを上回ります。オープンソースでAI駆動です。

Compare
OpenCoder
0

Visit

OpenCoderは、高性能なオープンソースコードLLMです。英語と中国語に対応しています。完全に再現可能なパイプラインを提供します。開発者、教育者、研究者にとって理想的です。

Compare
Gpt-oss
0

Visit

gpt-ossオープンソース言語モデルで、最先端のAIを手に入れましょう。高性能、高効率、カスタマイズが可能で、お客様がお持ちのハードウェア上で動作します。

Compare
DeepCode
1

Visit

DeepCode: AIエージェントシステムが、コーディングの全工程を自動化します。アイデア、論文、テキストといった発想から、本番環境で即利用可能なコード、ウェブUI、バックエンドを生成します。

Compare
Confucius-o1-14B
0

Visit

NetEase Youdao開発の、o1ライクな推論モデルConfucius-o1-14B。シングルGPUで展開可能です。Qwen2.5-14B-Instructをベースとしており、独自の要約能力を備えています。製品ページで、問題解決を簡素化する仕組みをご覧ください！

Compare