2025年最好的 Cambrian-1 替代方案
-

-

Yi 視覺語言 (Yi-VL) 模型是 Yi 大型語言模型 (LLM) 系列的開放原始碼多模態版本,可進行內容理解、辨識以及關於圖像的多輪對話。
-

擁有 80 億個參數,該模型在整體效能上超越了 GPT-4V-1106、Gemini Pro、Qwen-VL-Max 和 Claude 3 等專有模型。
-

-

GLM-4.5V:賦予您的 AI 卓越視覺能力。可從螢幕截圖生成網頁程式碼、自動化圖形使用者介面,並能運用深度推理,精準分析文件與影片。
-

-

-

CogVLM 和 CogAgent 是一款功能強大的開源視覺語言模型,擅長於影像理解和多回合對話。
-

C4AI Aya Vision 8B:開源多語言視覺 AI,用於圖像理解。支援 23 種語言的 OCR、圖像描述和推理。
-

BAGEL:字節跳動-Seed 開源的多模態人工智慧模型。能理解、生成、編輯圖像和文字。功能強大、靈活,堪比 GPT-4o。可用於構建先進的人工智慧應用程式。
-

DeepSeek-VL2 是由 DeepSeek-AI 開發的視覺語言模型,它能夠處理高解析度的圖像,並透過 MLA 提供快速的回應。DeepSeek-VL2 在各種視覺任務中表現出色,例如 VQA 和 OCR。對於研究人員、開發者和 BI 分析師來說,DeepSeek-VL2 是一個理想的選擇。
-

Qwen2.5 系列語言模型提供增強的功能,包括更大的資料集、更豐富的知識、更強的編碼和數學技能,以及更符合人類偏好的對齊。 它是開源的,可透過 API 取得。
-

LongCat-Video: 整合型AI,實現真正連貫、長達一分鐘的影片生成。輕鬆打造穩定流暢、無縫接軌的文字轉影片、圖片轉影片及連續性內容。
-

-

Janus: 解耦視覺編碼以實現統一的多模態理解和生成 Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
-

-

資料科學家花費大量時間為 LLM 訓練清理資料,但開源 Python 函式庫 Uniflow 簡化了從 PDF 文件中提取和結構化文字的過程。
-

加入 CAMEL-AI 這個開源社群,一同探索自主代理人的世界!在這裡,你可以盡情體驗代理人聊天、聊天機器人互動、資料集分析、遊戲創作等豐富應用!
-

Meta 的 Llama 4:採用 MoE 架構的開放原始碼 AI。可處理文字、圖片、影片等多種內容。具備龐大的上下文窗口,助您打造更聰明、更快速的應用!
-

MMStar,一個評估視覺語言模型大規模多模態功能的基準測試集。利用 MMStar 找出模型效能的潛在問題,並在多項任務中評估其多模態能力。立即試用!
-

-

-

Mini-Gemini 支援一系列 2B 到 34B 的 LLMs(大型語言模型),同時具有影像理解、推理和生成功能。我們基於 LLaVA 建立此儲存庫。
-

認識 Falcon 2: TII 發布全新 AI 模型系列,表現超越 Meta 的 Llama 3 Meet Falcon 2: TII Releases New AI Model Series, Outperforming Meta’s New Llama 3
-

-

PolyLM 是一款革命性的多語言大型語言模型 (LLM),支援 18 種語言,在各種任務中表現卓越,且為開源項目。非常適合開發者、研究人員和企業滿足多語言需求。
-

MiniCPM 是由 ModelBest Inc. 和 TsinghuaNLP 開發的 End-Side LLM,不包含嵌入函數的參數只有 2.4B 個(總計 2.7B 個)。
-

-

-

OpenBMB:建立大型預訓練語言模型中心與工具,以加速訓練、微調和推論超過 100 億參數的大型模型。加入我們的開放原始碼社群,讓每個人都能使用大型模型。
