What is Yandex YaLM?
YaLM 100B — нейросеть, подобная GPT, предназначенная для генерации и обработки текста. Она может свободно использоваться разработчиками и исследователями со всего мира.
Модель использует 100 миллиардов параметров. Для обучения модели на кластере из 800 графических процессоров A100 и 1,7 терабайта текстов, книг и бесчисленного множества других источников на английском и русском языках потребовалось 65 дней.
Подробности обучения и рекомендации по ускорению и стабилизации можно найти в статьях на Medium (на английском языке) и Habr (на русском языке).
Для обучения модели использовался DeepSpeed и пример Megatron-LM. Однако код в этом репозитории отличается от кода, который использовался для обучения модели. Скорее, это стандартный пример из репозитория DeepSpeed с минимальными изменениями, необходимыми для вывода модели.
Модель использует 100 миллиардов параметров. Для обучения модели на кластере из 800 графических процессоров A100 и 1,7 терабайта текстов, книг и бесчисленного множества других источников на английском и русском языках потребовалось 65 дней.
Подробности обучения и рекомендации по ускорению и стабилизации можно найти в статьях на Medium (на английском языке) и Habr (на русском языке).
Для обучения модели использовался DeepSpeed и пример Megatron-LM. Однако код в этом репозитории отличается от кода, который использовался для обучения модели. Скорее, это стандартный пример из репозитория DeepSpeed с минимальными изменениями, необходимыми для вывода модели.
More information on Yandex YaLM
Launched
2023
Pricing Model
Free
Starting Price
Global Rank
Country
Month Visit
<5k
Tech used
Yandex YaLM Альтернативи
Больше Альтернативи-
Модель языкового ИИ YandexGPT 2 демонстрирует существенные улучшения в моделировании языка, но все еще может давать ответы и предложения, которые не основаны на
-
GPT-NeoX-20B — это крупная авторегрессивная языковая модель с 20 миллиардами параметров, обученная на Pile с использованием библиотеки GPT-NeoX.
-
Alfred-40B-0723 — это улучшенная версия Falcon-40B, созданная с использованием обучения с подкреплением от Huma
-
Продолжающееся обучение исследовательских моделей трансформаторов в масштабе
-
Проект TinyLlama — открытое начинание по предварительной подготовке модели Llama 1.1B на основе 3 триллионов токенов.