What is Yandex YaLM?
YaLM 100B は、テキストを生成および処理するための GPT ライクなニューラルネットワークです。世界中の開発者や研究者が自由に使用できます。
このモデルは 1,000 億個のパラメーターを活用しています。800 個の A100 グラフィックカードと 1.7 TB のオンラインテキスト、書籍、および英語とロシア語の無数の他のソースのクラスターでモデルをトレーニングするのに 65 日かかりました。
トレーニングの詳細と、アクセラレーションと安定化に関するベストプラクティスは、Medium(英語)と Habr(ロシア語)の記事で確認できます。
モデルのトレーニングには DeepSpeed を使用し、Megatron-LM の例からインスピレーションを受けました。ただし、このリポジトリのコードは、モデルのトレーニングに使用されたコードと同じではありません。むしろ、モデルを推論するために必要な最小限の変更を施した DeepSpeed リポジトリからのストック例です。
このモデルは 1,000 億個のパラメーターを活用しています。800 個の A100 グラフィックカードと 1.7 TB のオンラインテキスト、書籍、および英語とロシア語の無数の他のソースのクラスターでモデルをトレーニングするのに 65 日かかりました。
トレーニングの詳細と、アクセラレーションと安定化に関するベストプラクティスは、Medium(英語)と Habr(ロシア語)の記事で確認できます。
モデルのトレーニングには DeepSpeed を使用し、Megatron-LM の例からインスピレーションを受けました。ただし、このリポジトリのコードは、モデルのトレーニングに使用されたコードと同じではありません。むしろ、モデルを推論するために必要な最小限の変更を施した DeepSpeed リポジトリからのストック例です。
More information on Yandex YaLM
Launched
2023
Pricing Model
Free
Starting Price
Global Rank
Country
Month Visit
<5k
Tech used
Yandex YaLM 代替ソフト
もっと見る 代替ソフト-
GPT-NeoX-20Bは、GPT-NeoXライブラリを使用してPile上でトレーニングされた、200億パラメータの自己回帰言語モデルです。
-
Alfred-40B-0723はFalcon-40Bのファインチューニング版で、ヒューマンプレイヤーとの強化学習から得られました。