什么是OmniEdit数据集

AI解读 5小时前 硕雀
2 0

OmniEdit 数据集概览

项目 关键内容 说明
数据规模 约 1.2 百万 对图像‑指令样本 包含 120 万对高质量编辑前后图像,覆盖七类编辑任务
任务种类(7 项) 1. 对象添加 2. 对象交换 3. 对象删除 4. 属性修改 5. 背景更换 6. 环境变化 7. 风格迁移 每类任务均由对应的专家模型生成监督信号,确保任务覆盖
图像来源 LAION‑5B、OpenImageV6 等公开大规模图像库,最低分辨率 1 MP 采集多种宽高比(1:1、2:3、3:2、3:4、4:3、9:16、16:9)以适配真实使用场景
质量控制 VIEScore 过滤,剔除噪声与伪影
- 基于大型多模态模型(如 GPT‑4o)进行 重要性抽样,提升数据质量
数据格式 每条记录包含:
• 原始图像 URL
• 编辑后图像 URL
• 自然语言编辑指令
• 质量评分(VIEScore)
便于直接用于指令驱动的图像编辑模型训练
发布渠道 GitHub 代码仓库:<https://github.com/TIGER-AI-Lab/OmniEdit >
项目主页:<https://tiger-ai-lab.github.io/OmniEdit/ >(提供数据下载、模型、基准)
arXiv 论文:<https://arxiv.org/abs/2411.07199 >(详细方法与实验)
应用场景 - 通用图像编辑模型(如 Omni‑Edit)训练
- 多任务、多分辨率图像编辑基准
- 研究图像编辑数据质量提升技术
- 商业与创意内容生成(社交媒体、广告、电商等)

核心技术亮点

  1. 专家模型监督:利用七个专门的编辑模型生成高质量的编辑对,克服单一模型生成数据的技能局限。
  2. 重要性抽样:采用 GPT‑4o(或蒸馏后的小模型)对候选样本打分,筛选出最具代表性和高质量的 1.2 M 对。
  3. EditNet 架构:在模型内部引入专门的编辑模块,提高编辑成功率并保持原图细节。
  4. 任意宽高比支持:训练时加入多种纵横比图像,使模型在实际使用中能够无缝处理任意尺寸的照片。

获取方式

  • 数据下载:在项目主页的 “Dataset” 页面提供直接下载链接(需同意使用协议)。
  • 代码与模型GitHub 仓库中包含数据处理脚本、训练代码以及预训练好的 Omni‑Edit 模型权重。
  • 文献引用:如在学术工作中使用,可引用 arXiv 预印本(Wei et al., 2024)。

简要结论:OmniEdit 是目前规模最大、质量最高且任务最全的图像编辑数据集,专为构建能够处理多种编辑需求、支持任意宽高比的通用编辑模型而设计。它通过专家模型监督、重要性抽样和高分辨率多比例图像的组合,为图像编辑研究提供了坚实的数据基础。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!