小米开源7B多模态模型MiMo-VL 推AI管家Miloco

AI资讯 2个月前硕雀

52 0 0

一、MiMo‑VL 7B 多模态模型概览
小米在 2025 年 5 月正式开源了 MiMo‑VL‑7B 系列模型，提供 SFT（监督微调）‍ 与 RL（强化学习）‍ 两个版本，均已在 HuggingFace 与 GitHub 上公开下载。该模型基于 7 B 参数规模，却在多模态推理、数学竞赛与 GUI 操作等任务上超越了参数数十倍的闭源大模型（如 GPT‑4o）。

二、核心技术架构

视觉编码器：采用原生分辨率的 ViT（Vision Transformer），能够直接处理高分辨率图像与视频帧。
跨模态投影层：轻量化 MLP 投影器，实现视觉特征向语言空间的高效对齐。
语言模型：基于 MiMo‑7B‑Base 的大语言模型（LLM），负责文本生成与多模态推理。
整体流水线：视觉令牌 → 投影 → 合并至语言令牌 → LLM 统一处理。

三、训练数据与预训练流程

数据规模：约 2.4 万亿个多模态令牌，涵盖图像、视频、文本以及 OCR、定位、GUI 等专用任务。
四阶段预训练
1. 冻结 ViT 与 LLM，仅用图像‑字幕对热启投影器。
2. 解冻 ViT，引入交织数据提升视觉‑语言对齐。
3. 加入更丰富的多模态任务（视频、GUI、长文本）。
4. 扩展序列长度，加入高分辨率图像与长文本，以增强长上下文处理能力。
后训练（RL）‍：在 40+ 任务上进行混合强化学习（RLVR+RLHF），显著提升复杂推理与交互稳定性。

四、性能评测

基准	MiMo‑VL‑7B‑SFT	MiMo‑VL‑7B‑RL
OlympiadBench	领先同等规模模型	超越 72 B Qwen‑2.5‑VL
MathVision / MathVerse	67.1 % / 71.5 %（RL）	超越 GPT‑4o
GUI 操作（10 步以上）	稳定完成	超越专用模型
高考数学（2025）	139 分，仅次于 235 B Qwen	与 GPT‑4o 同分

整体来看，MiMo‑VL‑7B 在 多模态推理、长文本理解、视觉计数、视频定位 等多项任务上均居开源模型首位，且在部分闭源基准中实现了 ‍“小模型大表现”‍ 的突破。

五、开源发布与版本迭代

首次发布（2025‑05‑30）：MiMo‑VL‑7B‑SFT 与 MiMo‑VL‑7B‑RL，模型权重、评估脚本、数据处理管线全部开源。
2508 迭代（2025‑08‑01）：在原有基础上提升 RL 稳定性，提供 MiMo‑VL‑7B‑SFT‑2508 与 MiMo‑VL‑7B‑RL‑2508 两个新版模型，均已在 HuggingFace 对应仓库上线。
模型格式：提供 GGUF、PyTorch、ONNX 多种格式，便于在边缘设备与云端灵活部署。

六、Miloco（Xiaomi Local Copilot）概述
Miloco 是基于 MiMo‑VL‑7B 的 AI 管家，定位为“家庭 AI 中枢”。它将 摄像头视觉输入 与 大模型推理 融合，实现对家庭场景的实时感知、自然语言交互以及自动化控制。

七、Miloco 技术实现

组件	功能描述
miloco_server（Python）	业务逻辑、设备编排、与小米 Home 服务的对接。
miloco_ai_engine（Python + C++，基于 llama.cpp）	本地运行 MiMo‑VL‑7B‑GGUF，完成视觉‑语言推理。
web_ui（JavaScript）	提供 Web 端交互界面，展示实时摄像头画面与对话日志。
协议兼容	完全兼容 HomeAssistant，支持灯光、空调、音乐等场景化控制。
隐私安全	模型在本地设备上推理，避免用户数据上云，符合隐私合规要求。

八、Miloco 典型应用场景

活动识别 + 自动联动：摄像头检测到“阅读”姿势，自动打开台灯并播放舒缓音乐。
手势控制：用户挥手即可调节空调温度或切换灯光模式。
情境化语音评论：回家时系统根据用户穿衣风格生成语音问候。
宠物定位：秒级定位宠物位置并自动云台跟拍。
环境自适应：检测到“热”字样或高温环境，自动关闭窗帘、调低空调温度。

九、未来展望

端侧部署：Miloco 通过本地大模型实现 ‍“眼睛‑大脑‑手脚”‍ 的完整闭环，预示 AI‑IoT 在 2026 年进入快速增长期。
感知扩展：计划加入毫米波雷达、化学传感器等多模态感知单元，进一步提升对空气质量、呼吸节律等物理信号的识别能力。
生态共建：开源代码与模型已在 GitHub 与 HuggingFace 完全公开，鼓励开发者基于 Miloco 构建自定义智能场景，实现行业标准化与创新共生。

十、结语
MiMo‑VL‑7B 以 轻量化‑高性能 的设计理念，为多模态 AI 设定了新的基准；而基于该模型的 Miloco 则把大模型能力落地到家庭智能生活中，实现了 视觉感知 + 语言交互 + 设备控制 的完整闭环。两者的开源姿态不仅推动了学术与产业的协同创新，也为全屋 AI 时代的到来奠定了坚实的技术底座。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

小米开源7B多模态模型MiMo-VL 推AI管家Miloco

小米推出v7.8.50版本的超级小爱更新，新增‘随心修图’功能

JetBrains 推出 AI 编码智能体基准测试平台 DPAI Arena