什么是ShareGPT‑4V

AI解读 2个月前硕雀

53 0 0

ShareGPT‑4V 并不是一个单独的模型，而是由中科大、上海 AI Lab 等团队基于 GPT‑4‑Vision 生成的大规模 图像‑文本对数据集，并在此基础上训练出同名的 7B 多模态模型（ShareGPT‑4V‑7B）。该项目旨在解决当前大规模多模态模型在高质量图文对齐方面的瓶颈，为后续的视觉语言预训练与指令微调提供更丰富、更细致的语料。

1. 背景与动机

多模态模型的性能高度依赖于 高质量的图像‑文本对。传统数据集（如 COCO、LAION）往往只提供简短的 caption，信息量有限，导致模型在细粒度理解和推理上受限。
GPT‑4‑Vision 能够生成 高度详细、包含世界知识、对象属性、空间关系和审美评价 的描述。团队利用这一能力先生成 10 万条高质量 caption，再通过自研的 caption 模型扩展至 约 120 万条，形成了 ShareGPT‑4V 数据集。

2. 数据规模与特点

项目	内容
规模	约 1.2 百万图像‑文本对（120 万条）
来源	多种公开图像库（COCO、LAION、CC、SAM 等）+ GPT‑4‑Vision 生成的 caption
描述深度	每条 caption 均为长句/段落，覆盖世界知识、属性、空间关系、艺术评价等多维信息
质量提升	与传统数据集相比，信息密度提升 3‑5 倍，显著提升多模态模型的对齐效果
公开渠道	Hugging Face 数据集页面、GitHub 项目仓库、arXiv 论文等

3. 关键成果

ShareGPT‑4V‑7B：基于该数据集微调的 7B 参数多模态模型，在多项视觉语言基准（VQA、图像描述、视觉推理）上超越同等级 LLaVA‑1.5、InternVL 等模型。
Share‑Captioner：从 10 万高质量 caption 学习得到的生成模型，用于批量生成其余 1.2 M caption，显著降低了数据标注成本。
社区影响：该数据集在 Hugging Face 的 VQA 赛道上获得历史第二高点赞数，推动了开源多模态模型的快速迭代。

4. 公开资源与获取方式

资源	链接	说明
arXiv 论文	https://arxiv.org/abs/2311.12793	详细阐述数据集构建方法、实验评估及模型实现
Hugging Face 数据集页面	https://huggingface.co/datasets/ShareGPT4V	数据集下载、示例、使用指南
GitHub 项目仓库	https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V	代码、模型权重、Demo 演示链接
模型 Demo（Space）‍	https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B	在线交互式体验模型能力
新闻报道与技术博客	https://cloud.tencent.com/developer/article/2366031 、https://zhuanlan.zhihu.com/p/670736460	对数据集意义与技术细节的中文解读

5. 小结

ShareGPT‑4V 通过 GPT‑4‑Vision 生成的高质量 caption，构建了目前规模最大、信息最丰富的图像‑文本对数据集，为大模型的视觉语言对齐提供了强有力的支撑。其衍生的 7B 模型已在多项基准上展示出显著优势，且全部资源（论文、数据、代码、Demo）均已开源，方便研究者与开发者直接使用或进一步扩展。

ShareGPT‑4V ShareGPT‑4V数据集图像‑文本对数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！