Meilleurs Yi-VL-34B alternatives en 2025
-

Qwen2-VL est la série de modèles de langage de grande taille multimodaux développée par l'équipe Qwen d'Alibaba Cloud.
-

C4AI Aya Vision 8B : IA de vision multilingue open source pour la compréhension d'images. ROC, légende, raisonnement en 23 langues.
-

GLM-4-9B est la version open source de la dernière génération de modèles pré-entraînés de la série GLM-4, lancée par Zhipu AI.
-

Transformez votre entreprise avec YiVal, une plateforme d'IA générative de niveau professionnel. Développez des applications très performantes avec GPT-4 à moindre coût. Explorez dès maintenant des possibilités infinies !
-

GLM-4.5V : Dotez votre IA d'une vision avancée. Générez du code web à partir de captures d'écran, automatisez les interfaces utilisateur graphiques (IUG) et analysez documents et vidéos grâce à un raisonnement approfondi.
-

Yi-Coder est une série de modèles de langage de code open source qui offre des performances de codage de pointe avec moins de 10 milliards de paramètres.
-

CogVLM et CogAgent sont des modèles linguistiques visuels open source puissants qui excellent dans la compréhension d'image et le dialogue multitour.
-

Cambrian-1 est une famille de modèles linguistiques multimodaux (LLM) conçus pour la vision.
-

DeepSeek-VL2, un modèle vision-langage développé par DeepSeek-AI, traite des images haute résolution, offre des réponses rapides grâce à MLA et excelle dans diverses tâches visuelles telles que le VQA et l'OCR. Il est idéal pour les chercheurs, les développeurs et les analystes BI.
-

Libérez le potentiel de YaLM 100B, un réseau neuronal de type GPT qui génère et traite du texte avec 100 milliards de paramètres. Gratuit pour les développeurs et les chercheurs du monde entier.
-

Étape-1V : Un modèle multimodal très performant développé par Jieyue Xingchen, présentant des performances exceptionnelles dans la compréhension d'images, le suivi d'instructions en plusieurs étapes, les capacités mathématiques, le raisonnement logique et la création de texte.
-

BAGEL : IA multimodale open source de ByteDance-Seed. Comprend, génère et modifie les images et le texte. Puissante, flexible et comparable à GPT-4o. Créez des applications d'IA avancées.
-

Avec un total de 8 milliards de paramètres, le modèle surpasse les modèles propriétaires tels que GPT-4V-1106, Gemini Pro, Qwen-VL-Max et Claude 3 en termes de performances globales.
-

Mini-Gemini prend en charge une série de modèles de langage étendus denses et MoE (LLM), de 2B à 34B, avec compréhension, raisonnement et génération d'images simultanés. Nous construisons ce référentiel sur la base de LLaVA.
-

Le nouveau paradigme du développement basé sur le MaaS, libérant l'IA avec notre service de modèle universel
-

XVERSE-MoE-A36B : Un grand modèle linguistique multilingue développé par XVERSE Technology Inc.
-

CM3leon : Un modèle génératif multi-modal polyvalent pour le texte et les images. Libérez votre créativité et créez des visuels réalistes pour vos jeux, vos réseaux sociaux et votre e-commerce.
-

Janus : Découplage de l'encodage visuel pour une compréhension et une génération multimodales unifiées
-

Une nouvelle architecture de modèle linguistique de grande taille multimodal (MLLM), conçue pour aligner structurellement les plongements visuels et textuels.
-

Les modèles linguistiques de la série Qwen2.5 offrent des capacités améliorées avec des ensembles de données plus importants, une plus grande quantité de connaissances, de meilleures compétences en codage et en mathématiques, et un alignement plus étroit sur les préférences humaines. Open-source et disponible via API.
-

Découvrez EXAONE 3.5 par LG AI Research. Une suite de modèles génératifs ajustés sur des instructions bilingues (anglais et coréen) allant de 2,4 milliards à 32 milliards de paramètres. Prend en charge des contextes longs allant jusqu'à 32 000 jetons, avec des performances de premier ordre dans les scénarios du monde réel.
-

PolyLM, un modèle linguistique révolutionnaire polyglote, prend en charge 18 langues, excelle dans diverses tâches et est open-source. Idéal pour les développeurs, les chercheurs et les entreprises ayant des besoins multilingues.
-

Un moteur d'inférence et de service à haut débit et économe en mémoire pour les LLM
-

Voyager est un pipeline professionnel pour la génération d'art IA améliorée. Voyager utilise environ 6 fois plus de ressources que les modèles standards tels que SDXL pour produire des résultats uniques et haut de gamme.
-

GLM-130B : un modèle pré-entraîné bilingue ouvert (ICLR 2023)
-

RWKV est un RNN avec des performances LLM de niveau transformateur. Il peut être formé directement comme un GPT (parallélisable). Il combine donc le meilleur du RNN et du transformateur : excellentes performances, inférence rapide, économie de VRAM, formation rapide, longueur de contexte « infinie » et intégration gratuite des phrases.
-

Molmo AI est un modèle d'intelligence artificielle multimodale open source développé par AI2. Il peut traiter et générer divers types de données, notamment du texte et des images.
-

VibeVoice : Synthèse vocale IA gratuite en ligne. Générez instantanément des conversations audio réalistes et à plusieurs voix, jusqu'à 90 minutes. Aucun téléchargement ni inscription !
-

Yuan2.0-M32 est un modèle linguistique de type « Mixture-of-Experts » (MoE) doté de 32 experts, dont 2 sont actifs.
-

MetaVoice-1B est un modèle de base à 1,2B paramètre entraîné sur 100K heures de parole pour TTS (texte-à-parole).
