小米开源7B多模态模型MiMo-VL 推AI管家Miloco

AI资讯 2个月前 硕雀
52 0

一、MiMo‑VL 7B 多模态模型概览
小米在 2025 年 5 月正式开源了 MiMo‑VL‑7B 系列模型,提供 SFT监督微调‍ 与 RL(强化学习‍ 两个版本,均已在 HuggingFaceGitHub 上公开下载。该模型基于 7 B 参数规模,却在多模态推理、数学竞赛与 GUI 操作等任务上超越了参数数十倍的闭源大模型(如 GPT‑4o)。


二、核心技术架构

  1. 视觉编码器:采用原生分辨率的 ViTVision Transformer),能够直接处理高分辨率图像与视频帧。
  2. 跨模态投影层:轻量化 MLP 投影器,实现视觉特征向语言空间的高效对齐。
  3. 语言模型:基于 MiMo‑7B‑Base 的大语言模型LLM),负责文本生成与多模态推理。
  4. 整体流水线视觉令牌 → 投影 → 合并至语言令牌 → LLM 统一处理。

三、训练数据与预训练流程

  • 数据规模:约 2.4 万亿个多模态令牌,涵盖图像、视频、文本以及 OCR、定位、GUI 等专用任务。
  • 四阶段预训练
    1. 冻结 ViT 与 LLM,仅用图像‑字幕对热启投影器。
    2. 解冻 ViT,引入交织数据提升视觉‑语言对齐。
    3. 加入更丰富的多模态任务(视频、GUI、长文本)。
    4. 扩展序列长度,加入高分辨率图像与长文本,以增强长上下文处理能力。
  • 后训练(RL)‍:在 40+ 任务上进行混合强化学习(RLVR+RLHF),显著提升复杂推理与交互稳定性。

四、性能评测

基准 MiMo‑VL‑7B‑SFT MiMo‑VL‑7B‑RL 备注
OlympiadBench 领先同等规模模型 超越 72 B Qwen‑2.5‑VL
MathVision / MathVerse 67.1 % / 71.5 %(RL) 超越 GPT‑4o
GUI 操作(10 步以上) 稳定完成 超越专用模型
高考数学(2025) 139 分,仅次于 235 B Qwen 与 GPT‑4o 同分

整体来看,MiMo‑VL‑7B 在 多模态推理、长文本理解、视觉计数、视频定位 等多项任务上均居开源模型首位,且在部分闭源基准中实现了 ‍“小模型大表现”‍ 的突破。


五、开源发布与版本迭代

  • 首次发布(2025‑05‑30):MiMo‑VL‑7B‑SFT 与 MiMo‑VL‑7B‑RL,模型权重、评估脚本、数据处理管线全部开源。
  • 2508 迭代(2025‑08‑01):在原有基础上提升 RL 稳定性,提供 MiMo‑VL‑7B‑SFT‑2508 与 MiMo‑VL‑7B‑RL‑2508 两个新版模型,均已在 HuggingFace 对应仓库上线。
  • 模型格式:提供 GGUF、PyTorch、ONNX 多种格式,便于在边缘设备与云端灵活部署。

六、Miloco(Xiaomi Local Copilot)概述
Miloco 是基于 MiMo‑VL‑7B 的 AI 管家,定位为“家庭 AI 中枢”。它将 摄像头视觉输入 与 大模型推理 融合,实现对家庭场景的实时感知、自然语言交互以及自动化控制。


七、Miloco 技术实现

组件 功能描述
miloco_server(Python) 业务逻辑、设备编排、与小米 Home 服务的对接。
miloco_ai_engine(Python + C++,基于 llama.cpp) 本地运行 MiMo‑VL‑7B‑GGUF,完成视觉‑语言推理。
web_uiJavaScript 提供 Web 端交互界面,展示实时摄像头画面与对话日志。
协议兼容 完全兼容 HomeAssistant,支持灯光、空调、音乐等场景化控制。
隐私安全 模型在本地设备上推理,避免用户数据上云,符合隐私合规要求。

八、Miloco 典型应用场景

  1. 活动识别 + 自动联动:摄像头检测到“阅读”姿势,自动打开台灯并播放舒缓音乐。
  2. 手势控制:用户挥手即可调节空调温度或切换灯光模式。
  3. 情境化语音评论:回家时系统根据用户穿衣风格生成语音问候。
  4. 宠物定位:秒级定位宠物位置并自动云台跟拍。
  5. 环境自适应:检测到“热”字样或高温环境,自动关闭窗帘、调低空调温度。

九、未来展望

  • 端侧部署:Miloco 通过本地大模型实现 ‍“眼睛‑大脑‑手脚”‍ 的完整闭环,预示 AI‑IoT 在 2026 年进入快速增长期。
  • 感知扩展:计划加入毫米波雷达、化学传感器等多模态感知单元,进一步提升对空气质量、呼吸节律等物理信号的识别能力。
  • 生态共建:开源代码与模型已在 GitHub 与 HuggingFace 完全公开,鼓励开发者基于 Miloco 构建自定义智能场景,实现行业标准化与创新共生。

十、结语
MiMo‑VL‑7B 以 轻量化‑高性能 的设计理念,为多模态 AI 设定了新的基准;而基于该模型的 Miloco 则把大模型能力落地到家庭智能生活中,实现了 视觉感知 + 语言交互 + 设备控制 的完整闭环。两者的开源姿态不仅推动了学术与产业的协同创新,也为全屋 AI 时代的到来奠定了坚实的技术底座。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!