小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

AI解读 3个月前硕雀

52 0 0

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio 是小米在人工智能领域的重要突破，标志着语音技术在端到端处理和少样本学习方面取得重大进展。该模型于2025年9月19日正式发布，旨在推动语音AI生态的发展，并降低开发者使用门槛。

创新预训练架构与训练数据
Xiaomi-MiMo-Audio 采用创新的预训练架构，训练数据规模达到上亿小时，首次在语音领域实现基于ICL（In-Context Learning）的少样本泛化能力。该模型在预训练阶段观察到明显的“涌现”行为，标志着语音大模型技术取得关键突破。
性能表现与评测
在多项评测基准中，MiMo-Audio 表现优异。例如，在通用语音理解及对话任务中，其性能优于同参数量的开源模型；在音频理解基准MMAU和面向音频复杂推理的Big Bench Audio S2T任务中，MiMo-Audio 也超越了部分闭源模型。
开源与开放性
小米已将预训练和指令微调模型开源至Huggingface平台，Tokenizer模型开源至Github平台，参数量达1.2B，基于Transformer架构，支持音频重建和转文本任务。
跨模态对齐与应用
该模型在跨模态对齐能力上有所提升，支持文本与音频的任意组合任务，具备较高的拟人化水平，适用于语音助手、智能家居等场景。

Xiaomi-MiMo-Audio 的开源不仅推动了语音AI生态的发展，还为开发者提供了更便捷的工具，降低了语音技术的使用门槛。小米表示，该模型将与小米的智能家居、汽车OS系统等生态深度融合，进一步提升智能交互体验。

Xiaomi-MiMo-Audio 是小米在语音大模型领域的重大突破，其创新性、性能表现和开源开放性使其成为语音AI领域的重要里程碑。该模型不仅推动了语音技术的进步，也为语音交互的智能化和自然化提供了新的可能性

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！