什么是UltraEdit数据集

AI解读 8个月前硕雀

95 0 0

UltraEdit数据集是一个专为图像编辑研究设计的大型、高质量、基于自然语言指令和区域（掩码）的图像编辑数据集。它由来自北京大学、清华大学、加州大学洛杉矶分校等机构的研究人员共同创建，旨在解决现有图像编辑数据集在图像隐性偏见、缺乏区域级编辑等方面的局限性。该数据集包含约400万个样本，其中约10万个为基于区域的编辑数据，其余为自由形式编辑数据。数据集以Apache Parquet格式存储，包含源图像、目标/编辑图像、源和目标图像的标题、编辑指令、要编辑的对象、指标（如CLIPimg、DINOv2、SSIM、CLIPin、CLIPout和CLIPdir）以及可选的编辑区域等信息。

UltraEdit数据集的优势在于其广泛的编辑指令范围、基于真实图像的数据源以及支持基于区域的编辑。通过结合大型语言模型（LLMs）的创造力和人类审阅者的上下文编辑示例，该数据集能够生成高质量的图像编辑样本。此外，UltraEdit还支持多种编辑任务，包括文本修改、抽象对象编辑、多步编辑和精细编辑。实验结果表明，使用UltraEdit训练的模型在MagicBrush 基准测试中取得了显著的改进，特别是在自由形式编辑任务中，模型能够更精确地执行背景和局部编辑。

UltraEdit数据集不仅适用于图像编辑领域的研究人员和开发者，还为开发和训练先进的图像编辑模型提供了丰富的资源。它可以帮助提高模型在理解和执行复杂编辑任务方面的能力。此外，UltraEdit数据集还考虑了伦理和隐私保护问题，采取措施减少不公平的表示，并确保数据的安全性和合规性

UltraEdit数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

什么是UltraEdit数据集

什么是HQ-Edit数据集

什么是xbench-DeepSearch