Yandex YaLM

5 comments
解鎖 YaLM 100B 的強大功能,這是一個類似 GPT 的神經網路,可運用 1000 億個參數來產生和處理文字。它提供給全球的開發人員和研究人員免費使用。0
訪問

What is Yandex YaLM?

YaLM 100B 是一款類 GPT 的神經網路,用於產生和處理文字。世界各地的開發人員和研究人員皆可免費使用。

此模型利用了 1000 億個參數。在一個由 800 個 A100 顯示卡和 1.7 TB 的線上文字、書籍和其他無數來源(包括英文和俄文)組成的叢集中訓練模型,共耗時 65 天。

可在 Medium(英文)和 Habr(俄文)文章中找到訓練詳情與有關加速和穩定的最佳實務範例。

他們使用 DeepSpeed 訓練模型,並從 Megatron-LM 範例中獲得靈感。然而,此儲存庫中的程式碼並非用於訓練模型的程式碼。而是來自 DeepSpeed 儲存庫的範例程式碼,僅需最少的變更即可推斷模型。

More information on Yandex YaLM

Launched
2023
Pricing Model
Free
Starting Price
Global Rank
Country
Month Visit
<5k
Tech used
Yandex YaLM was manually vetted by our editorial team and was first featured on September 4th 2024.
Aitoolnet Featured banner

Yandex YaLM 替代方案

更多 替代方案
  1. YandexGPT 2,一款 AI 語言模型,已在語言建模上展現出顯著進步,但它仍可能提供並非根據事實的答案和建議

  2. GPT-NeoX-20B 是一個 200 億參數的自動回歸語言模型,使用 GPT-NeoX 函式庫針對 Pile 進行訓練。

  3. Alfred-40B-0723 是 Falcon-40B 經過微調的版本,是透過人類強化學習而獲得

  4. 持續研究訓練 Transformer 模型的規模

  5. TinyLlama 計畫是一個開放的項目,旨在使用 3 兆個代幣預訓練 1.1B Llama 模型。