최상의 Yi-VL-34B 대체품 2025년
-

-

C4AI Aya Vision 8B: 이미지 이해를 위한 오픈 소스 다국어 비전 AI. 23개 언어로 OCR, 캡셔닝, 추론 기능 제공.
-

-

-

GLM-4.5V: AI에 강력한 시각 지능을 불어넣으세요. 스크린샷으로 웹 코드를 생성하고, GUI를 자동화하며, 심층 추론을 통해 문서와 동영상을 분석합니다.
-

Yi-Coder는 100억 개 미만의 매개변수로 최첨단 코딩 성능을 제공하는 일련의 오픈 소스 코드 언어 모델입니다.
-

CogVLM과 CogAgent는 이미지 이해와 멀티턴 대화에서 탁월한 성능을 보이는 강력한 오픈소스 비주얼 언어 모델입니다.
-

-

DeepSeek-AI에서 개발한 시각-언어 모델인 DeepSeek-VL2는 고해상도 이미지를 처리하고, MLA를 통해 빠른 응답을 제공하며, VQA 및 OCR과 같은 다양한 시각적 작업에서 뛰어난 성능을 자랑합니다. 연구원, 개발자 및 BI 분석가에게 이상적입니다.
-

YaLM 100B의 힘을 풀어보세요. 1000억 개의 매개변수를 가진 GPT와 유사한 신경망으로 텍스트를 생성하고 처리합니다. 전 세계 개발자와 연구자에게 무료로 제공됩니다.
-

1단계 V: Jieyue Xingchen에서 개발한 뛰어난 성능을 보이는 고성능 다모드 모델로, 이미지 이해, 멀티턴 지침 따르기, 수학적 능력, 논리적 추론, 텍스트 생성에 탁월한 성능을 보입니다.
-

-

총 80억 개의 매개변수를 갖춘 이 모델은 GPT-4V-1106, Gemini Pro, Qwen-VL-Max, Claude 3와 같은 독점 모델을 능가하는 전반적인 성능을 제공합니다.
-

미니-제미니는 이미지 이해, 추론, 생성과 동시에 2B에서 34B까지의 고밀도 및 MoE 대규모 언어 모델(LLM)을 지원합니다. 이 리포는 LLaVA를 기반으로 구축했습니다.
-

-

XVERSE-MoE-A36B: XVERSE Technology Inc.에서 개발한 다국어 대규모 언어 모델입니다.
-

CM3leon: 텍스트와 이미지를 위한 다재다능한 멀티모달 생성 모델입니다. 게임, 소셜 미디어, 전자 상거래에서 창의성을 향상시키고 현실적인 비주얼을 만들어 보세요.
-

-

-

Qwen2.5 시리즈 언어 모델은 더 큰 데이터셋, 더 많은 지식, 향상된 코딩 및 수학 능력, 그리고 인간 선호도와의 더 긴밀한 일치를 통해 향상된 기능을 제공합니다. 오픈 소스이며 API를 통해 사용 가능합니다.
-

LG AI Research의 EXAONE 3.5를 발견하세요. 24억에서 320억 파라미터까지의 쌍어(영어 및 한국어) 명령어 튜닝 생성형 모델 세트입니다. 최대 32K 토큰의 장문 컨텍스트를 지원하며, 실제 시나리오에서 최고 수준의 성능을 발휘합니다.
-

다국어를 지원하는 혁신적인 거대 언어 모델 PolyLM은 18개 언어를 지원하며 다양한 작업에서 뛰어난 성능을 보입니다. 오픈 소스로 제공되어 개발자, 연구원, 기업의 다국어 관련 니즈에 이상적입니다.
-

-

Voyager는 향상된 AI 아트 생성을 위한 전문 파이프라인입니다. Voyager는 SDXL과 같은 표준 모델보다 약 6배 더 많은 리소스를 사용하여 독특하고 고급 출력을 생성합니다.
-

-

RWKV는 RNN으로, LLM 수준 성능을 갖췄습니다. GPT와 유사하게 직접 훈련할 수 있습니다(병렬화 가능). 따라서 RNN과 LLM의 장점을 모두 취했습니다. 뛰어난 성능, 빠른 훈련, 많은 VRAM, 빠른 학습, "무제한" ctx_len, 무료 문장 임베딩을 제공합니다.
-

Molmo AI는 AI2에서 개발한 오픈소스 멀티모달 인공지능 모델입니다. 텍스트와 이미지를 포함한 다양한 유형의 데이터를 처리하고 생성할 수 있습니다.
-

VibeVoice: 무료 온라인 AI 텍스트-음성 변환 서비스. 최대 90분 길이의 실감 나는 다중 화자 오디오 대화를 즉시 생성할 수 있습니다. 다운로드나 회원가입 없이 바로 이용해 보세요!
-

Yuan2.0-M32는 32개의 전문가로 구성된 Mixture-of-Experts (MoE) 언어 모델로, 그 중 2개가 활성화되어 있습니다.
-

MetaVoice-1B는 TTS(텍스트 음성 변환)를 위해 100,000시간의 음성으로 학습한 12B 매개변수 기반 모델입니다.
