What is Step1X-Edit?
Step1X-Edit 是一個先進的開放原始碼影像編輯模型,旨在將精密的、基於指令的編輯功能帶入開放領域。如果您從事影像生成或處理相關工作,您會欣賞它解讀複雜自然語言指令的能力,並提供接近領先的閉源系統(如 GPT-4o 和 Gemini Flash)的品質。Step1X-Edit 建構在穩健的基礎之上,並經過嚴格的評估,能讓您突破創意和實用影像編輯的界限。
核心功能
Step1X-Edit 採用強大的 190 億參數架構,結合了用於理解指令的 70 億參數多模態大型語言模型 (MLLM) 和用於影像生成的 120 億參數擴散影像轉換器 (DiT)。這種結構實現了以下幾個關鍵功能:
🗣️ 執行複雜的語義指令: 處理細微的、多步驟的自然語言提示,無需預定義的範本。這允許靈活、迭代的編輯工作流程,並支持在影像中識別、替換和重建文字等任務。
👤 始終如一地保持主體身份: 在編輯過程中保留重要的身份特徵,如臉部和姿勢。這對於涉及虛擬人物、電子商務模特圖像或在多個影像中保持一致的角色形象的應用尤其有價值。
🎯 應用高精度的區域編輯: 修改影像中的特定區域——調整文字、材料或顏色——同時保持原始影像的整體連貫性和風格。這允許有針對性的、逼真的調整。
技術基礎和性能
為確保高品質的輸出,Step1X-Edit 使用精心建構的資料生成流程進行訓練。它的性能不僅僅是理論上的;我們開發了 GEdit-Bench,這是一個基於真實世界使用者指令的新型基準,以提供真實的評估。
基準驗證: 在 GEdit-Bench 上的實驗結果表明,Step1X-Edit 顯著優於現有的開放原始碼替代方案。
競爭優勢: 該模型展示了與頂級專有模型相媲美的能力,使高級編輯更易於使用。
實際用例
以下是 Step1X-Edit 在現實場景中的應用方式:
複雜場景轉換: 想像一下,需要更改房間裝飾的風格並且替換其中的特定物件,所有這些都用一個自然語言指令描述。Step1X-Edit 可以準確地解析和執行這種多部分請求。
一致的角色修飾: 對於需要虛擬網紅或一致的電子商務模特外觀的專案,您可以使用 Step1X-Edit 修改服裝或背景元素,同時確保人物的面部特徵和姿勢在影像中保持不變且一致。
有針對性的品牌更新: 需要更新行銷影像中產品包裝上的標誌或文字嗎?Step1X-Edit 允許您無縫地進行這些精確的區域更改,同時保留周圍的影像細節和紋理。
入門:使用方法和要求
Step1X-Edit 專為具有強大硬體的環境而設計。以下是資源需求的一覽:
GPU 記憶體: 需求因配置而異(例如,512px 輸出,28 步 w/ flash-attn):
標準:約 42.5 GB
FP8 量化:約 31 GB
標準 + CPU 卸載:約 25.9 GB
FP8 + CPU 卸載:約 18 GB
(注意:更大的解析度會增加記憶體需求。在 NVIDIA H800 上測試;建議使用 80GB GPU 以獲得最佳性能。)
軟體: Python >= 3.10, PyTorch >= 2.2 (在 CUDA 12.1 上使用 2.3.1/2.5.1 測試),以及特定的依賴項,例如
flash-attn。安裝: 提供詳細的說明,包括
pip install -r requirements.txt和安裝適當的flash-attnwheel。推理: 提供了範例腳本 (
run_examples.sh) 以幫助您快速入門,其中包含使用 FP8 權重 (--quantized) 或 CPU 卸載 (--offload) 來管理資源使用的標誌。
結論
Step1X-Edit 代表了開放原始碼影像編輯向前邁出的重要一步。它提供了細微的指令理解、高保真輸出和精確控制的強大組合,並以強大的基準性能為後盾。對於尋找功能強大、易於訪問且用途廣泛的影像編輯模型的開發人員和研究人員來說,Step1X-Edit 提供了一個引人注目的解決方案,可以隨時進行整合和進一步探索。





