What is Yandex YaLM?
YaLM 100B 是一款類 GPT 的神經網路,用於產生和處理文字。世界各地的開發人員和研究人員皆可免費使用。
此模型利用了 1000 億個參數。在一個由 800 個 A100 顯示卡和 1.7 TB 的線上文字、書籍和其他無數來源(包括英文和俄文)組成的叢集中訓練模型,共耗時 65 天。
可在 Medium(英文)和 Habr(俄文)文章中找到訓練詳情與有關加速和穩定的最佳實務範例。
他們使用 DeepSpeed 訓練模型,並從 Megatron-LM 範例中獲得靈感。然而,此儲存庫中的程式碼並非用於訓練模型的程式碼。而是來自 DeepSpeed 儲存庫的範例程式碼,僅需最少的變更即可推斷模型。
此模型利用了 1000 億個參數。在一個由 800 個 A100 顯示卡和 1.7 TB 的線上文字、書籍和其他無數來源(包括英文和俄文)組成的叢集中訓練模型,共耗時 65 天。
可在 Medium(英文)和 Habr(俄文)文章中找到訓練詳情與有關加速和穩定的最佳實務範例。
他們使用 DeepSpeed 訓練模型,並從 Megatron-LM 範例中獲得靈感。然而,此儲存庫中的程式碼並非用於訓練模型的程式碼。而是來自 DeepSpeed 儲存庫的範例程式碼,僅需最少的變更即可推斷模型。
More information on Yandex YaLM
Launched
2023
Pricing Model
Free
Starting Price
Global Rank
Country
Month Visit
<5k
Tech used