What is Yandex YaLM?

YaLM 100B — нейросеть, подобная GPT, предназначенная для генерации и обработки текста. Она может свободно использоваться разработчиками и исследователями со всего мира.

Модель использует 100 миллиардов параметров. Для обучения модели на кластере из 800 графических процессоров A100 и 1,7 терабайта текстов, книг и бесчисленного множества других источников на английском и русском языках потребовалось 65 дней.

Подробности обучения и рекомендации по ускорению и стабилизации можно найти в статьях на Medium (на английском языке) и Habr (на русском языке).

Для обучения модели использовался DeepSpeed и пример Megatron-LM. Однако код в этом репозитории отличается от кода, который использовался для обучения модели. Скорее, это стандартный пример из репозитория DeepSpeed с минимальными изменениями, необходимыми для вывода модели.

More information on Yandex YaLM

Launched

2023

Pricing Model

Free

Starting Price

Global Rank

Country

Month Visit

<5k

Tech used

Yandex YaLM was manually vetted by our editorial team and was first featured on September 4th 2024.

Yandex YaLM Альтернативи

Больше Альтернативи

YandexGPT-2
41

Visit Site

Модель языкового ИИ YandexGPT 2 демонстрирует существенные улучшения в моделировании языка, но все еще может давать ответы и предложения, которые не основаны на

Compare
GPT-NeoX-20B
0

Visit Site

GPT-NeoX-20B — это крупная авторегрессивная языковая модель с 20 миллиардами параметров, обученная на Pile с использованием библиотеки GPT-NeoX.

Compare
Alfred-40 B-0723
0

Visit Site

Alfred-40B-0723 — это улучшенная версия Falcon-40B, созданная с использованием обучения с подкреплением от Huma

Compare
Megatron-LM
0

Visit Site

Продолжающееся обучение исследовательских моделей трансформаторов в масштабе

Compare
TinyLlama
0

Visit Site

Проект TinyLlama — открытое начинание по предварительной подготовке модели Llama 1.1B на основе 3 триллионов токенов.

Compare

Yandex YaLM

What is Yandex YaLM?

More information on Yandex YaLM

Yandex YaLM Альтернативи

YandexGPT-2

GPT-NeoX-20B

Alfred-40 B-0723

Megatron-LM

TinyLlama