一、MiMo‑VL 7B 多模态模型概览
小米在 2025 年 5 月正式开源了 MiMo‑VL‑7B 系列模型,提供 SFT(监督微调) 与 RL(强化学习) 两个版本,均已在 HuggingFace 与 GitHub 上公开下载。该模型基于 7 B 参数规模,却在多模态推理、数学竞赛与 GUI 操作等任务上超越了参数数十倍的闭源大模型(如 GPT‑4o)。
二、核心技术架构
- 视觉编码器:采用原生分辨率的 ViT(Vision Transformer),能够直接处理高分辨率图像与视频帧。
- 跨模态投影层:轻量化 MLP 投影器,实现视觉特征向语言空间的高效对齐。
- 语言模型:基于 MiMo‑7B‑Base 的大语言模型(LLM),负责文本生成与多模态推理。
- 整体流水线:视觉令牌 → 投影 → 合并至语言令牌 → LLM 统一处理。
三、训练数据与预训练流程
- 数据规模:约 2.4 万亿个多模态令牌,涵盖图像、视频、文本以及 OCR、定位、GUI 等专用任务。
- 四阶段预训练
- 冻结 ViT 与 LLM,仅用图像‑字幕对热启投影器。
- 解冻 ViT,引入交织数据提升视觉‑语言对齐。
- 加入更丰富的多模态任务(视频、GUI、长文本)。
- 扩展序列长度,加入高分辨率图像与长文本,以增强长上下文处理能力。
- 后训练(RL):在 40+ 任务上进行混合强化学习(RLVR+RLHF),显著提升复杂推理与交互稳定性。
四、性能评测
| 基准 | MiMo‑VL‑7B‑SFT | MiMo‑VL‑7B‑RL | 备注 |
|---|---|---|---|
| OlympiadBench | 领先同等规模模型 | 超越 72 B Qwen‑2.5‑VL | |
| MathVision / MathVerse | 67.1 % / 71.5 %(RL) | 超越 GPT‑4o | |
| GUI 操作(10 步以上) | 稳定完成 | 超越专用模型 | |
| 高考数学(2025) | 139 分,仅次于 235 B Qwen | 与 GPT‑4o 同分 |
整体来看,MiMo‑VL‑7B 在 多模态推理、长文本理解、视觉计数、视频定位 等多项任务上均居开源模型首位,且在部分闭源基准中实现了 “小模型大表现” 的突破。
五、开源发布与版本迭代
- 首次发布(2025‑05‑30):MiMo‑VL‑7B‑SFT 与 MiMo‑VL‑7B‑RL,模型权重、评估脚本、数据处理管线全部开源。
- 2508 迭代(2025‑08‑01):在原有基础上提升 RL 稳定性,提供 MiMo‑VL‑7B‑SFT‑2508 与 MiMo‑VL‑7B‑RL‑2508 两个新版模型,均已在 HuggingFace 对应仓库上线。
- 模型格式:提供 GGUF、PyTorch、ONNX 多种格式,便于在边缘设备与云端灵活部署。
六、Miloco(Xiaomi Local Copilot)概述
Miloco 是基于 MiMo‑VL‑7B 的 AI 管家,定位为“家庭 AI 中枢”。它将 摄像头视觉输入 与 大模型推理 融合,实现对家庭场景的实时感知、自然语言交互以及自动化控制。
七、Miloco 技术实现
| 组件 | 功能描述 |
|---|---|
| miloco_server(Python) | 业务逻辑、设备编排、与小米 Home 服务的对接。 |
| miloco_ai_engine(Python + C++,基于 llama.cpp) | 本地运行 MiMo‑VL‑7B‑GGUF,完成视觉‑语言推理。 |
| web_ui(JavaScript) | 提供 Web 端交互界面,展示实时摄像头画面与对话日志。 |
| 协议兼容 | 完全兼容 HomeAssistant,支持灯光、空调、音乐等场景化控制。 |
| 隐私安全 | 模型在本地设备上推理,避免用户数据上云,符合隐私合规要求。 |
八、Miloco 典型应用场景
- 活动识别 + 自动联动:摄像头检测到“阅读”姿势,自动打开台灯并播放舒缓音乐。
- 手势控制:用户挥手即可调节空调温度或切换灯光模式。
- 情境化语音评论:回家时系统根据用户穿衣风格生成语音问候。
- 宠物定位:秒级定位宠物位置并自动云台跟拍。
- 环境自适应:检测到“热”字样或高温环境,自动关闭窗帘、调低空调温度。
九、未来展望
- 端侧部署:Miloco 通过本地大模型实现 “眼睛‑大脑‑手脚” 的完整闭环,预示 AI‑IoT 在 2026 年进入快速增长期。
- 感知扩展:计划加入毫米波雷达、化学传感器等多模态感知单元,进一步提升对空气质量、呼吸节律等物理信号的识别能力。
- 生态共建:开源代码与模型已在 GitHub 与 HuggingFace 完全公开,鼓励开发者基于 Miloco 构建自定义智能场景,实现行业标准化与创新共生。
十、结语
MiMo‑VL‑7B 以 轻量化‑高性能 的设计理念,为多模态 AI 设定了新的基准;而基于该模型的 Miloco 则把大模型能力落地到家庭智能生活中,实现了 视觉感知 + 语言交互 + 设备控制 的完整闭环。两者的开源姿态不仅推动了学术与产业的协同创新,也为全屋 AI 时代的到来奠定了坚实的技术底座。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!