什么是OmniEdit数据集

AI解读 3个月前硕雀

46 0 0

OmniEdit 数据集概览

项目	关键内容	说明
数据规模	约 1.2 百万对图像‑指令样本	包含 120 万对高质量编辑前后图像，覆盖七类编辑任务
任务种类（7 项）‍	1. 对象添加 2. 对象交换 3. 对象删除 4. 属性修改 5. 背景更换 6. 环境变化 7. 风格迁移	每类任务均由对应的专家模型生成监督信号，确保任务覆盖
图像来源	LAION‑5B、OpenImageV6 等公开大规模图像库，最低分辨率 1 MP	采集多种宽高比（1:1、2:3、3:2、3:4、4:3、9:16、16:9）以适配真实使用场景
质量控制	- VIEScore 过滤，剔除噪声与伪影 - 基于大型多模态模型（如 GPT‑4o）进行重要性抽样，提升数据质量
数据格式	每条记录包含： • 原始图像 URL • 编辑后图像 URL • 自然语言编辑指令 • 质量评分（VIEScore）	便于直接用于指令驱动的图像编辑模型训练
发布渠道	- GitHub 代码仓库：<https://github.com/TIGER-AI-Lab/OmniEdit > - 项目主页：<https://tiger-ai-lab.github.io/OmniEdit/ >（提供数据下载、模型、基准） - arXiv 论文：<https://arxiv.org/abs/2411.07199 >（详细方法与实验）
应用场景	- 通用图像编辑模型（如 Omni‑Edit）训练 - 多任务、多分辨率图像编辑基准 - 研究图像编辑数据质量提升技术 - 商业与创意内容生成（社交媒体、广告、电商等）

核心技术亮点

专家模型监督：利用七个专门的编辑模型生成高质量的编辑对，克服单一模型生成数据的技能局限。
重要性抽样：采用 GPT‑4o（或蒸馏后的小模型）对候选样本打分，筛选出最具代表性和高质量的 1.2 M 对。
EditNet 架构：在模型内部引入专门的编辑模块，提高编辑成功率并保持原图细节。
任意宽高比支持：训练时加入多种纵横比图像，使模型在实际使用中能够无缝处理任意尺寸的照片。

获取方式

数据下载：在项目主页的 “Dataset” 页面提供直接下载链接（需同意使用协议）。
代码与模型：GitHub 仓库中包含数据处理脚本、训练代码以及预训练好的 Omni‑Edit 模型权重。
文献引用：如在学术工作中使用，可引用 arXiv 预印本（Wei et al., 2024）。

简要结论：OmniEdit 是目前规模最大、质量最高且任务最全的图像编辑数据集，专为构建能够处理多种编辑需求、支持任意宽高比的通用编辑模型而设计。它通过专家模型监督、重要性抽样和高分辨率多比例图像的组合，为图像编辑研究提供了坚实的数据基础。

OmniEdit OmniEdit数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！