What is Yandex YaLM?

YaLM 100B 是一款類 GPT 的神經網路，用於產生和處理文字。世界各地的開發人員和研究人員皆可免費使用。

此模型利用了 1000 億個參數。在一個由 800 個 A100 顯示卡和 1.7 TB 的線上文字、書籍和其他無數來源（包括英文和俄文）組成的叢集中訓練模型，共耗時 65 天。

可在 Medium（英文）和 Habr（俄文）文章中找到訓練詳情與有關加速和穩定的最佳實務範例。

他們使用 DeepSpeed 訓練模型，並從 Megatron-LM 範例中獲得靈感。然而，此儲存庫中的程式碼並非用於訓練模型的程式碼。而是來自 DeepSpeed 儲存庫的範例程式碼，僅需最少的變更即可推斷模型。

More information on Yandex YaLM

Launched

2023

Pricing Model

Free

Starting Price

Global Rank

Country

Month Visit

<5k

Tech used

Yandex YaLM was manually vetted by our editorial team and was first featured on September 4th 2024.

Yandex YaLM 替代方案

更多替代方案

YandexGPT-2
41

Visit Site

YandexGPT 2，一款 AI 語言模型，已在語言建模上展現出顯著進步，但它仍可能提供並非根據事實的答案和建議

Compare
GPT-NeoX-20B
0

Visit Site

GPT-NeoX-20B 是一個 200 億參數的自動回歸語言模型，使用 GPT-NeoX 函式庫針對 Pile 進行訓練。

Compare
Alfred-40 B-0723
0

Visit Site

Alfred-40B-0723 是 Falcon-40B 經過微調的版本，是透過人類強化學習而獲得

Compare
Megatron-LM
0

Visit Site

持續研究訓練 Transformer 模型的規模

Compare
TinyLlama
0

Visit Site

TinyLlama 計畫是一個開放的項目，旨在使用 3 兆個代幣預訓練 1.1B Llama 模型。

Compare

Yandex YaLM

What is Yandex YaLM?

More information on Yandex YaLM

Yandex YaLM 替代方案

YandexGPT-2

GPT-NeoX-20B

Alfred-40 B-0723

Megatron-LM

TinyLlama