DriveLM 数据集概览
1. 背景与动机
DriveLM(全称 Driving with Language)是由上海人工智能实验室 OpenDriveLab 联合德国图宾根大学等机构推出的首个 语言 + 自动驾驶全栈开源数据集。它的目标是把大语言模型(LLM)的推理与常识能力引入自动驾驶系统,帮助模型在感知、预测、规划(P3)等环节进行更具解释性的决策。该数据集的设计初衷是弥补传统自动驾驶数据在复杂场景推理和可解释性方面的不足。
2. 数据集构成
| 组成要素 | 说明 |
|---|---|
| 原始来源 | 基于 nuScenes 自动驾驶数据集,结合真实摄像头图像与 CARLA 仿真数据 |
| 标注形式 | 采用 Description + Q&A(场景描述 + 问答对)方式,问答之间通过图结构(Graph)建立逻辑依赖 |
| 任务类型 | - 感知(对象检测、属性描述) - 预测(轨迹、意图) - 规划(行为决策、目标分解) - 假设推理(“What if …”) - 驾驶目标分解(宏观目标 → 子任务) |
| 语言 | 中文与英文双语标注,语言数据采用 CC BY‑NC‑SA 4.0,整体代码采用 Apache 2.0 许可证 |
3. 关键特性
- 图结构问答:每个问答对之间形成有向图,能够表达前后因果与依赖关系,适配图视觉问答(GVQA)任务。
- 假设推理:标注中包含 “如果 … 会怎样” 的假设问题,帮助模型学习对未发生事件的预判。
- 驾驶目标分解:提供场景级全局目标与帧级子目标的对应关系,促进层次化规划学习。
- 多模态覆盖:除了前视摄像头图像,还提供点云、雷达等传感器信息(在原始 nuScenes 中可获取),支持跨模态融合。
- 规模:约 697 个训练场景、150 个验证场景,每场景约 40 帧,关键帧 4‑8 张,累计 30 k 张图像和 360 k 条问答对。
4. 获取方式
| 资源 | 链接 | 说明 |
|---|---|---|
| GitHub 项目仓库 | https://github.com/OpenDriveLab/DriveLM | 包含数据下载脚本、标注格式说明、基线代码 |
| 官方论文(arXiv) | https://arxiv.org/abs/2309.00345 (示例) | 详细阐述数据集设计、任务划分与基准实验 |
| 媒体报道 | https://www.thepaper.cn/newsDetail_forward_24471127 | 介绍 DriveLM 的创新点与行业意义 |
| 中文技术博客 | https://www.cnblogs.com/selectdataset/p/18582394 | 对数据集结构、标注流程的深入解读 |
| 知乎专栏 | https://zhuanlan.zhihu.com/p/688576682 | 进一步说明图结构与全栈特性 |
5. 使用场景
- 自动驾驶感知‑预测‑规划统一建模:利用语言描述提升模型对复杂交通情境的理解。
- 大语言模型微调:在多模态 LLM(如 LLaVA、MiniGPT‑4)上进行针对驾驶任务的微调。
- 图视觉问答基准:评估模型在 GVQA、假设推理等高级推理能力。
- 跨模态研究:结合点云、雷达等传感器数据进行多源信息融合实验。
小结:DriveLM 通过将自然语言问答与自动驾驶感知、预测、规划三大环节紧密结合,提供了一个具备图结构、假设推理与目标分解的全栈数据集,为大语言模型在自动驾驶领域的落地提供了重要的实验平台和基准。想要深入研究或直接使用,只需访问上述 GitHub 仓库或官方论文即可获取完整数据与代码。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!