Las mejores Yi-VL-34B alternativas en 2025
-

Qwen2-VL es la serie de modelos lingüísticos de gran tamaño multimodales desarrollada por el equipo de Qwen, Alibaba Cloud.
-

C4AI Aya Vision 8B: IA de visión multilingüe de código abierto para la comprensión de imágenes. Reconocimiento óptico de caracteres (OCR), subtitulado y razonamiento en 23 idiomas.
-

GLM-4-9B es la versión de código abierto de la última generación de modelos pre-entrenados en la serie GLM-4, lanzada por Zhipu AI.
-

Transforma los negocios con YiVal, una plataforma de IA generativa de nivel empresarial. Desarrolla aplicaciones de alto rendimiento con GPT-4 a un costo menor. ¡Explora ahora posibilidades infinitas!
-

GLM-4.5V: Potencia tu IA con visión avanzada. Genera código web a partir de capturas de pantalla, automatiza GUIs y analiza documentos y vídeo con razonamiento profundo.
-

Yi-Coder es una serie de modelos de lenguaje de código abierto que ofrece un rendimiento de codificación de última generación con menos de 10 mil millones de parámetros.
-

CogVLM y CogAgent son poderosos modelos de lenguaje visual de código abierto que se destacan en la comprensión de imágenes y el diálogo de varias intervenciones.
-

Cambrian-1 es una familia de modelos lingüísticos de gran tamaño (LLM) multimodales con un diseño centrado en la visión.
-

DeepSeek-VL2, un modelo de visión-lenguaje de DeepSeek-AI, procesa imágenes de alta resolución, ofrece respuestas rápidas con MLA y sobresale en diversas tareas visuales como VQA y OCR. Ideal para investigadores, desarrolladores y analistas de BI.
-

Desbloquea el poder de YaLM 100B, una red neuronal similar a GPT que genera y procesa texto con 100 mil millones de parámetros. Gratuito para desarrolladores e investigadores de todo el mundo.
-

Paso-1V: Un modelo multimodal altamente capaz desarrollado por Jieyue Xingchen, que muestra un rendimiento excepcional en comprensión de imágenes, seguimiento de instrucciones multiturno, capacidad matemática, razonamiento lógico y creación de textos.
-

BAGEL: IA multimodal de código abierto de ByteDance-Seed. Comprende, genera y edita imágenes y texto. Potente, flexible y comparable a GPT-4o. Desarrolle aplicaciones de IA avanzadas.
-

Con un total de 8 mil millones de parámetros, el modelo supera a modelos propietarios como GPT-4V-1106, Gemini Pro, Qwen-VL-Max y Claude 3 en rendimiento general.
-

Mini-Gemini es compatible con una serie de modelos de lenguaje grandes densos y MoE (LLM, por sus siglas en inglés) de 2B a 34B con generación, razonamiento y comprensión de imágenes de forma simultánea. Creamos este repositorio basándonos en LLaVA.
-

El nuevo paradigma del desarrollo basado en MaaS, liberando la IA con nuestro servicio de modelo universal
-

XVERSE-MoE-A36B: Un modelo lingüístico de gran tamaño multilingüe desarrollado por XVERSE Technology Inc.
-

CM3leon: Un modelo generativo multimodal versátil para texto e imágenes. Mejora la creatividad y crea imágenes realistas para juegos, redes sociales y comercio electrónico.
-

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation Janus: Desacoplando la Codificación Visual para la Comprensión y Generación Multimodal Unificada
-

Una novedosa arquitectura de Modelo de Lenguaje de Gran Tamaño Multimodal (MLLM), diseñada para alinear estructuralmente las incrustaciones visuales y textuales.
-

Los modelos de lenguaje de la serie Qwen2.5 ofrecen capacidades mejoradas con conjuntos de datos más grandes, más conocimiento, mejores habilidades de codificación y matemáticas, y una alineación más cercana a las preferencias humanas. De código abierto y disponible a través de API.
-

Descubre EXAONE 3.5 de LG AI Research. Un conjunto de modelos generativos ajustados por instrucciones bilingües (inglés y coreano) con parámetros que van de 2.4 mil millones a 32 mil millones. Admite contextos largos de hasta 32 mil tokens, con un rendimiento de primer nivel en escenarios del mundo real.
-

PolyLM, un revolucionario modelo lingüístico poliglota (LLM), admite 18 idiomas, sobresale en diversas tareas y es de código abierto. Ideal para desarrolladores, investigadores y empresas con necesidades multilingües.
-

Un motor de inferencia y servicio de alto rendimiento y bajo consumo de memoria para LLM
-

Voyager es un pipeline profesional para la generación de arte de IA mejorada. Voyager utiliza aproximadamente 6 veces los recursos de modelos estándar como SDXL para producir resultados únicos y de mayor calidad.
-

GLM-130B: un modelo preentrenado bilingüe abierto (ICLR 2023)
-

RWKV es una RNN con rendimiento LLM a nivel de transformer. Se puede entrenar directamente como un GPT (paralizable). Por lo tanto, combina lo mejor de RNN y transformer: gran rendimiento, inferencia rápida, ahorra VRAM, entrenamiento rápido, ctx_len "infinito" e incrustación de oraciones gratuita.
-

Molmo AI es un modelo de inteligencia artificial multimodal de código abierto desarrollado por AI2. Puede procesar y generar varios tipos de datos, incluyendo texto e imágenes.
-

VibeVoice: Texto a voz con IA en línea gratis. Crea al instante conversaciones de audio multivoz realistas de hasta 90 minutos. ¡Sin descargas ni registro!
-

Yuan2.0-M32 es un modelo de lenguaje de Mezcla de Expertos (MoE) con 32 expertos, de los cuales 2 están activos.
-

MetaVoice-1B es un modelo base de 1.2B parámetros entrenado en 100.000 horas de habla para TTS (text-to-speech).
