What is StarCoder?
StarCoderBase和StarCoder是大规模语言模型(Code LLMs),其训练数据来自GitHub的开源许可数据。这包括80多种编程语言、Git提交和问题、Jupyter笔记本以及Git提交数据。
我们为1万亿标记训练了一个15B参数模型,类似于LLaMA。
我们为35B Python标记精炼了StarCoderBase。结果是一个我们称为StarCoder的新模型。
StarCoderBase是一个在流行的编程基准测试中优于其他开源代码LLM的模型。它还能匹敌或超越像OpenAI的code-cushman001这样的封闭模型,这是最初为GitHub Copilot提供动力的Codex模型。StarCoder模型能够处理超过8,000个标记长度的上下文,比任何其他开源LLM更多。这为各种有趣的应用提供了可能。通过使用一系列对话提示StarCoder模型,我们使它们能够像技术助手一样工作。
More information on StarCoder
Launched
2023
Pricing Model
Free
Starting Price
Global Rank
Country
Month Visit
<5k
Tech used
Amazon AWS CloudFront,cdnjs,Google Fonts,KaTeX,Gzip,OpenGraph,RSS,Stripe
StarCoder 替代方案
更多 替代方案-
DeciCoder 1B 是一个仅包含解码器的 10 亿参数代码补全 模型,训练数据包括 Starcoder 训练数据集中 Python、Java 和 JavaScript 的子集。