What is Step1X-Edit?
Step1X-Edit 是一款先进的开源图像编辑模型,旨在将复杂、基于指令的编辑能力引入开放领域。如果您从事图像生成或处理相关工作,一定会欣赏它解读复杂自然语言指令的能力,以及它所能达到的接近 GPT-4o 和 Gemini Flash 等领先闭源系统的图像质量。Step1X-Edit 构建在强大的基础上,并经过严格评估,能够帮助您突破创意和实用图像编辑的界限。
核心功能
Step1X-Edit 采用强大的 190 亿参数架构,结合了用于理解指令的 70 亿参数多模态大型语言模型 (MLLM) 和用于图像生成的 120 亿参数扩散图像 Transformer (DiT)。这种结构实现了以下几个关键功能:
🗣️ 执行复杂的语义指令: 处理细致、多步骤的自然语言提示,无需预定义的模板。这实现了灵活的迭代编辑工作流程,并支持识别、替换和重建图像中的文本等任务。
👤 始终如一地保持主体特征: 在编辑过程中保留关键的身份特征,例如面部和姿势。这对于涉及虚拟人物、电子商务模特图像或在多张图像中保持一致的角色形象的应用尤其有价值。
🎯 应用高精度区域编辑: 修改图像中的特定区域——调整文本、材质或颜色——同时保持原始图像的整体连贯性和风格。这允许进行有针对性的、逼真的调整。
技术基础和性能
为了确保高质量的输出,Step1X-Edit 使用精心构建的数据生成管道进行训练。它的性能不仅仅是理论上的;我们开发了 GEdit-Bench,这是一个基于真实用户指令的新型基准,用于提供真实的评估。
基准验证: 在 GEdit-Bench 上的实验结果表明,Step1X-Edit 显著优于现有的开源替代方案。
竞争优势: 该模型展示了与顶级专有模型相媲美的能力,使高级编辑更易于访问。
实际用例
以下是 Step1X-Edit 在实际场景中的应用方式:
复杂场景转换: 想象一下,需要更改房间装饰的风格并替换其中的特定对象,所有这些都用一条自然语言指令来描述。Step1X-Edit 可以准确地解析和执行此类多部分请求。
一致的角色修饰: 对于需要虚拟网红或一致的电子商务模特外观的项目,您可以使用 Step1X-Edit 修改服装或背景元素,同时确保人物的面部特征和姿势在图像中保持不变且一致。
有针对性的品牌更新: 需要更新营销图像中产品包装上的徽标或文本吗?Step1X-Edit 允许您无缝地进行这些精确的区域更改,同时保留周围的图像细节和纹理。
入门指南:用法和要求
Step1X-Edit 专为具有强大硬件的环境而设计。以下是资源需求的一览:
GPU 内存: 要求因配置而异(例如,512px 输出,28 步,带 flash-attn):
标准:约 42.5 GB
FP8 量化:约 31 GB
标准 + CPU 卸载:约 25.9 GB
FP8 + CPU 卸载:约 18 GB
(注意:更大的分辨率会增加内存需求。在 NVIDIA H800 上测试;建议使用 80GB GPU 以获得最佳性能。)
软件: Python >= 3.10, PyTorch >= 2.2 (在 CUDA 12.1 上使用 2.3.1/2.5.1 测试) 以及特定的依赖项,例如
flash-attn。安装: 提供了详细的说明,包括
pip install -r requirements.txt和安装适当的flash-attnwheel。推理: 提供了示例脚本 (
run_examples.sh) 以帮助您快速入门,其中包含使用 FP8 权重 (--quantized) 或 CPU 卸载 (--offload) 来管理资源使用的标志。
结论
Step1X-Edit 代表了开源图像编辑领域的一大进步。它提供了细致的指令理解、高保真输出和精确控制的强大组合,并以强大的基准性能为后盾。对于正在寻找强大、可访问且通用的图像编辑模型的开发人员和研究人员来说,Step1X-Edit 提供了一个引人注目的解决方案,可以立即集成和进一步探索。





