Meta发布多模态音频模型 SAM Audio

AI资讯 3小时前 硕雀
2 0

Meta SAM Audio 概览

Meta 在 2025 年 12 月正式发布了 SAM Audio(Segment Anything Audio),这是首个 统一的多模态音频分离模型,能够通过 文本、视觉点击和时间段 三种自然提示,从任意混合音频中精准分离出目标声音。模型定位为 “最先进的统一模型”,旨在把人类对声音的直观交互方式(说、看、指)迁移到 AI 系统,实现 即点即分、即写即分 的音频编辑体验。


1. 关键特性

特性 说明 证据
多模态提示 - 文本提示(如 “狗叫声”)
- 视觉提示:在视频帧中点击目标物体即可分离对应声音
- 时间段提示:在波形上划定区间进行批量分离(行业首创)
2, 4
准实时处理 推理实时因子 RTF≈0.7,快于实时播放速度 1
统一模型 同一模型同时支持三种提示,无需为不同任务训练专门模型 5
跨模态感知 通过 PE‑AV(Perception Encoder Audiovisual)‍ 将视觉特征与音频特征对齐,实现声源定位与分离 6, 11
大规模训练 基于超过 1 亿 视频进行多模态对比学习,使用流匹配扩散 Transformer 生成建模框架 11, 12
评估体系 同步发布 SAM Audio‑Bench(首个 “in‑the‑wild” 音频分离基准)和 SAM Audio Judge(无参考感知评估模型) 10, 9
开源与接口 两大关键工具(PE‑AV 引擎、评估基准)已开源,开发者可通过 Meta AI API 调用模型进行音频分离 6, 18

2. 核心技术细节

  1. PE‑AV 感知编码器
    • 继承自 Meta 4 月开源的 Perception Encoder,扩展至视听双模态。它被比作模型的 “耳朵”,负责把视觉信息转化为音频特征的对齐表示。
    • 通过 帧级对齐(逐帧将视频特征与音频特征匹配),实现对画面中说话者、乐器等声源的精准定位。
  2. 流匹配扩散 Transformer
    • 采用 流匹配(Flow‑Match)扩散 Transformer 作为生成建模框架,能够在大规模多模态数据上进行自监督学习,提升对复杂混合音的分离能力。
    • 该框架结合 对比学习 与 扩散生成,在 1 亿+ 视频上训练,显著提升跨模态特征的语义一致性
  3. 提示接口实现
    • 文本提示:模型将自然语言映射到声源语义向量
    • 视觉点击:用户在视频帧上点击目标,系统通过 PE‑AV 捕获对应的视觉特征并映射到音频空间,实现“一键分离”。
    • 时间段提示:用户在波形上划定时间区间,模型利用时间对齐信息进行局部分离,适用于批量处理。

3. 性能表现

评测 结果 说明
通用音频分离 SOTA 在多种公开基准(音乐、语音、环境音)上显著超越现有最先进模型,且在特定领域(如语音分离)可匹配专用模型表现 1
实时因子 RTF≈0.7(快于实时) 1
资源效率 与同等精度的前代模型相比,计算资源消耗降低约 40%,分离精度提升 27% 7
基准覆盖 SAM Audio‑Bench 包含 500+ 实际场景音频,覆盖乐器、语音、通用音效等多类声源 10
感知评估 SAM Audio Judge 能在无参考音轨的情况下给出感知质量评分,已成为行业首个自动化音频分离评估工具 9

4. 典型应用场景

场景 示例 说明
音频清理 去除播客中的背景噪音、狗叫声等干扰 文本或时间段提示即可实现
媒体编辑 从音乐视频中“一键提取吉他声”或“隔离人声” 视觉点击实现直观操作
助听器/无障碍 与助听器厂商合作,实时分离目标说话者,提高聆听体验 多模态提示帮助定位目标声源
内容创作 为短视频自动生成纯净音轨,或为游戏音效进行分层编辑 支持批量时间段分离
科研分析 在多模态数据集上进行声源定位研究,利用 PE‑AV 的跨模态对齐特性 为音视频同步研究提供工具

5. 局限与未来方向

  • 相似声源分离仍具挑战:在高度相似的音频(如同类乐器或相同说话者的多段对话)中,分离精度仍不够理想。
  • 提示类型受限:当前仅支持文本、视觉点击和时间段三种提示,尚未支持 音频提示(即以已有音频片段作为参考)。
  • 模型规模与部署:虽然已实现轻量化(资源降低 40%),但在移动端或极低算力设备上的部署仍需进一步压缩与加速。
  • 安全与滥用防护:Meta 强调使用需遵守法律法规,但未公开具体的安全过滤机制,未来需要更完善的滥用检测与权限控制。

6. 获取方式

  • 模型代码与权重:Meta 已在 GitHub(Meta‑AI)开源 PE‑AV 与 SAM Audio‑Bench,并提供 Docker 镜像供快速部署。
  • API 接入:开发者可通过 Meta AI Platform 申请 SAM Audio 的云端调用权限,支持 RESTful 接口进行音频分离。
  • 文档与示例:官方文档提供 文本、视觉、时间段 三种提示的使用示例,以及基准评估脚本(SAM Audio Judge)。

结论
Meta SAM Audio 将 ‍“Segment Anything”‍ 的理念扩展到音频领域,凭借 PE‑AV 跨模态感知、流匹配扩散 Transformer 的生成建模以及 多模态提示 的交互设计,实现了 准实时、统一、易用 的音频分离能力。它在 SOTA 基准上取得显著提升,并配套了完整的评估基准与开源工具,已在音频清理、媒体编辑、无障碍技术等多个场景展现出强大潜力。后续工作可聚焦于 相似声源分离、音频提示扩展 以及 移动端高效部署,进一步推动多模态音频 AI 的实用落地。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!