What is Yandex YaLM?
YaLM 100B 是一款类似于 GPT 的神经网络,用于生成和处理文本。全球各地的开发者和研究者均可免费使用。
该模型利用 1000 亿个参数。该模型在 800 个 A100 显卡和 1.7 TB 在线文本、书籍以及无数其他英文和俄文资源的集群上训练了 65 天。
有关加速和稳定的培训详细信息和最佳实践,请参阅 Medium(英文)和 Habr(俄文)文章。
他们使用 DeepSpeed 来训练模型,并从 Megatron-LM 示例中汲取灵感。但是,此存储库中的代码与用于训练模型的代码不同。相反,它是 DeepSpeed 存储库中的库存示例,只需进行最小的更改即可推断模型。
该模型利用 1000 亿个参数。该模型在 800 个 A100 显卡和 1.7 TB 在线文本、书籍以及无数其他英文和俄文资源的集群上训练了 65 天。
有关加速和稳定的培训详细信息和最佳实践,请参阅 Medium(英文)和 Habr(俄文)文章。
他们使用 DeepSpeed 来训练模型,并从 Megatron-LM 示例中汲取灵感。但是,此存储库中的代码与用于训练模型的代码不同。相反,它是 DeepSpeed 存储库中的库存示例,只需进行最小的更改即可推断模型。
More information on Yandex YaLM
Launched
2023
Pricing Model
Free
Starting Price
Global Rank
Country
Month Visit
<5k
Tech used