What is Yandex YaLM?
YaLM 100B es una red neuronal similar a GPT para generar y procesar texto. Puede ser usada libremente por desarrolladores e investigadores de todo el mundo.
El modelo utiliza 100 mil millones de parámetros. Se necesitaron 65 días para entrenar el modelo en un clúster de 800 tarjetas gráficas A100 y 1,7 TB de textos en línea, libros e innumerables otras fuentes en inglés y ruso.
Los detalles de la formación y las mejores prácticas sobre la aceleración y las estabilizaciones se pueden encontrar en los artículos de Medium (inglés) y Habr (ruso).
Utilizaron DeepSpeed para entrenar el modelo y se inspiraron en el ejemplo de Megatron-LM. Sin embargo, el código de este repositorio no es el mismo código que se utilizó para entrenar el modelo. Más bien es un ejemplo de código del repositorio de DeepSpeed con los cambios mínimos necesarios para inferir el modelo.
El modelo utiliza 100 mil millones de parámetros. Se necesitaron 65 días para entrenar el modelo en un clúster de 800 tarjetas gráficas A100 y 1,7 TB de textos en línea, libros e innumerables otras fuentes en inglés y ruso.
Los detalles de la formación y las mejores prácticas sobre la aceleración y las estabilizaciones se pueden encontrar en los artículos de Medium (inglés) y Habr (ruso).
Utilizaron DeepSpeed para entrenar el modelo y se inspiraron en el ejemplo de Megatron-LM. Sin embargo, el código de este repositorio no es el mismo código que se utilizó para entrenar el modelo. Más bien es un ejemplo de código del repositorio de DeepSpeed con los cambios mínimos necesarios para inferir el modelo.
More information on Yandex YaLM
Launched
2023
Pricing Model
Free
Starting Price
Global Rank
Country
Month Visit
<5k
Tech used
Yandex YaLM Alternativas
Más Alternativas-
YandexGPT 2, un modelo de lenguaje de IA, ha mostrado mejoras significativas en el modelado del lenguaje, pero aún puede proporcionar respuestas y sugerencias que no se basan
-
GPT-NeoX-20B es un modelo de lenguaje autoregresivo de 20 mil millones de parámetros entrenado en el Conjunto de Datos utilizando la biblioteca GPT-NeoX.
-
Alfred-40B-0723 es una versión ajustada de Falcon-40B, obtenida con aprendizaje de refuerzo de Huma
-
El proyecto TinyLlama es un esfuerzo abierto para preentrenar un modelo Llama de 1.1B en 3 billones de tokens.