| 项目 | 关键内容 | 说明 |
|---|---|---|
| 数据规模 | 约 1.2 百万 对图像‑指令样本 | 包含 120 万对高质量编辑前后图像,覆盖七类编辑任务 |
| 任务种类(7 项) | 1. 对象添加 2. 对象交换 3. 对象删除 4. 属性修改 5. 背景更换 6. 环境变化 7. 风格迁移 | 每类任务均由对应的专家模型生成监督信号,确保任务覆盖 |
| 图像来源 | LAION‑5B、OpenImageV6 等公开大规模图像库,最低分辨率 1 MP | 采集多种宽高比(1:1、2:3、3:2、3:4、4:3、9:16、16:9)以适配真实使用场景 |
| 质量控制 | - VIEScore 过滤,剔除噪声与伪影 - 基于大型多模态模型(如 GPT‑4o)进行 重要性抽样,提升数据质量 |
|
| 数据格式 | 每条记录包含: • 原始图像 URL • 编辑后图像 URL • 自然语言编辑指令 • 质量评分(VIEScore) |
便于直接用于指令驱动的图像编辑模型训练 |
| 发布渠道 | - GitHub 代码仓库:<https://github.com/TIGER-AI-Lab/OmniEdit > - 项目主页:<https://tiger-ai-lab.github.io/OmniEdit/ >(提供数据下载、模型、基准) - arXiv 论文:<https://arxiv.org/abs/2411.07199 >(详细方法与实验) |
|
| 应用场景 | - 通用图像编辑模型(如 Omni‑Edit)训练 - 多任务、多分辨率图像编辑基准 - 研究图像编辑数据质量提升技术 - 商业与创意内容生成(社交媒体、广告、电商等) |
核心技术亮点
- 专家模型监督:利用七个专门的编辑模型生成高质量的编辑对,克服单一模型生成数据的技能局限。
- 重要性抽样:采用 GPT‑4o(或蒸馏后的小模型)对候选样本打分,筛选出最具代表性和高质量的 1.2 M 对。
- EditNet 架构:在模型内部引入专门的编辑模块,提高编辑成功率并保持原图细节。
- 任意宽高比支持:训练时加入多种纵横比图像,使模型在实际使用中能够无缝处理任意尺寸的照片。
获取方式
- 数据下载:在项目主页的 “Dataset” 页面提供直接下载链接(需同意使用协议)。
- 代码与模型:GitHub 仓库中包含数据处理脚本、训练代码以及预训练好的 Omni‑Edit 模型权重。
- 文献引用:如在学术工作中使用,可引用 arXiv 预印本(Wei et al., 2024)。
简要结论:OmniEdit 是目前规模最大、质量最高且任务最全的图像编辑数据集,专为构建能够处理多种编辑需求、支持任意宽高比的通用编辑模型而设计。它通过专家模型监督、重要性抽样和高分辨率多比例图像的组合,为图像编辑研究提供了坚实的数据基础。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!