Yandex YaLM

5 comments
Libera el poder de YaLM 100B, una red neuronal de tipo GPT que genera y procesa texto con 100 mil millones de parámetros. Gratuito para desarrolladores e investigadores de todo el mundo.0
Visitar sitio web

What is Yandex YaLM?

YaLM 100B es una red neuronal similar a GPT para generar y procesar texto. Puede ser usada libremente por desarrolladores e investigadores de todo el mundo.

El modelo utiliza 100 mil millones de parámetros. Se necesitaron 65 días para entrenar el modelo en un clúster de 800 tarjetas gráficas A100 y 1,7 TB de textos en línea, libros e innumerables otras fuentes en inglés y ruso.

Los detalles de la formación y las mejores prácticas sobre la aceleración y las estabilizaciones se pueden encontrar en los artículos de Medium (inglés) y Habr (ruso).

Utilizaron DeepSpeed para entrenar el modelo y se inspiraron en el ejemplo de Megatron-LM. Sin embargo, el código de este repositorio no es el mismo código que se utilizó para entrenar el modelo. Más bien es un ejemplo de código del repositorio de DeepSpeed con los cambios mínimos necesarios para inferir el modelo.

More information on Yandex YaLM

Launched
2023
Pricing Model
Free
Starting Price
Global Rank
Country
Month Visit
<5k
Tech used
Yandex YaLM was manually vetted by our editorial team and was first featured on September 4th 2024.
Aitoolnet Featured banner

Yandex YaLM Alternativas

Más Alternativas
  1. YandexGPT 2, un modelo de lenguaje de IA, ha mostrado mejoras significativas en el modelado del lenguaje, pero aún puede proporcionar respuestas y sugerencias que no se basan

  2. GPT-NeoX-20B es un modelo de lenguaje autoregresivo de 20 mil millones de parámetros entrenado en el Conjunto de Datos utilizando la biblioteca GPT-NeoX.

  3. Alfred-40B-0723 es una versión ajustada de Falcon-40B, obtenida con aprendizaje de refuerzo de Huma

  4. Investigación en curso para entrenar modelos Transformer a escala

  5. El proyecto TinyLlama es un esfuerzo abierto para preentrenar un modelo Llama de 1.1B en 3 billones de tokens.