Meta SAM Audio 概览
Meta 在 2025 年 12 月正式发布了 SAM Audio(Segment Anything Audio),这是首个 统一的多模态音频分离模型,能够通过 文本、视觉点击和时间段 三种自然提示,从任意混合音频中精准分离出目标声音。模型定位为 “最先进的统一模型”,旨在把人类对声音的直观交互方式(说、看、指)迁移到 AI 系统,实现 即点即分、即写即分 的音频编辑体验。
1. 关键特性
| 特性 | 说明 | 证据 |
|---|---|---|
| 多模态提示 | - 文本提示(如 “狗叫声”) - 视觉提示:在视频帧中点击目标物体即可分离对应声音 - 时间段提示:在波形上划定区间进行批量分离(行业首创) |
2, 4 |
| 准实时处理 | 推理实时因子 RTF≈0.7,快于实时播放速度 | 1 |
| 统一模型 | 同一模型同时支持三种提示,无需为不同任务训练专门模型 | 5 |
| 跨模态感知 | 通过 PE‑AV(Perception Encoder Audiovisual) 将视觉特征与音频特征对齐,实现声源定位与分离 | 6, 11 |
| 大规模训练 | 基于超过 1 亿 视频进行多模态对比学习,使用流匹配扩散 Transformer 生成建模框架 | 11, 12 |
| 评估体系 | 同步发布 SAM Audio‑Bench(首个 “in‑the‑wild” 音频分离基准)和 SAM Audio Judge(无参考感知评估模型) | 10, 9 |
| 开源与接口 | 两大关键工具(PE‑AV 引擎、评估基准)已开源,开发者可通过 Meta AI API 调用模型进行音频分离 | 6, 18 |
2. 核心技术细节
- PE‑AV 感知编码器
- 继承自 Meta 4 月开源的 Perception Encoder,扩展至视听双模态。它被比作模型的 “耳朵”,负责把视觉信息转化为音频特征的对齐表示。
- 通过 帧级对齐(逐帧将视频特征与音频特征匹配),实现对画面中说话者、乐器等声源的精准定位。
- 流匹配扩散 Transformer
- 提示接口实现
- 文本提示:模型将自然语言映射到声源语义向量。
- 视觉点击:用户在视频帧上点击目标,系统通过 PE‑AV 捕获对应的视觉特征并映射到音频空间,实现“一键分离”。
- 时间段提示:用户在波形上划定时间区间,模型利用时间对齐信息进行局部分离,适用于批量处理。
3. 性能表现
| 评测 | 结果 | 说明 |
|---|---|---|
| 通用音频分离 SOTA | 在多种公开基准(音乐、语音、环境音)上显著超越现有最先进模型,且在特定领域(如语音分离)可匹配专用模型表现 | 1 |
| 实时因子 | RTF≈0.7(快于实时) | 1 |
| 资源效率 | 与同等精度的前代模型相比,计算资源消耗降低约 40%,分离精度提升 27% | 7 |
| 基准覆盖 | SAM Audio‑Bench 包含 500+ 实际场景音频,覆盖乐器、语音、通用音效等多类声源 | 10 |
| 感知评估 | SAM Audio Judge 能在无参考音轨的情况下给出感知质量评分,已成为行业首个自动化音频分离评估工具 | 9 |
4. 典型应用场景
| 场景 | 示例 | 说明 |
|---|---|---|
| 音频清理 | 去除播客中的背景噪音、狗叫声等干扰 | 文本或时间段提示即可实现 |
| 媒体编辑 | 从音乐视频中“一键提取吉他声”或“隔离人声” | 视觉点击实现直观操作 |
| 助听器/无障碍 | 与助听器厂商合作,实时分离目标说话者,提高聆听体验 | 多模态提示帮助定位目标声源 |
| 内容创作 | 为短视频自动生成纯净音轨,或为游戏音效进行分层编辑 | 支持批量时间段分离 |
| 科研分析 | 在多模态数据集上进行声源定位研究,利用 PE‑AV 的跨模态对齐特性 | 为音视频同步研究提供工具 |
5. 局限与未来方向
- 相似声源分离仍具挑战:在高度相似的音频(如同类乐器或相同说话者的多段对话)中,分离精度仍不够理想。
- 提示类型受限:当前仅支持文本、视觉点击和时间段三种提示,尚未支持 音频提示(即以已有音频片段作为参考)。
- 模型规模与部署:虽然已实现轻量化(资源降低 40%),但在移动端或极低算力设备上的部署仍需进一步压缩与加速。
- 安全与滥用防护:Meta 强调使用需遵守法律法规,但未公开具体的安全过滤机制,未来需要更完善的滥用检测与权限控制。
6. 获取方式
- 模型代码与权重:Meta 已在 GitHub(Meta‑AI)开源 PE‑AV 与 SAM Audio‑Bench,并提供 Docker 镜像供快速部署。
- API 接入:开发者可通过 Meta AI Platform 申请 SAM Audio 的云端调用权限,支持 RESTful 接口进行音频分离。
- 文档与示例:官方文档提供 文本、视觉、时间段 三种提示的使用示例,以及基准评估脚本(SAM Audio Judge)。
结论
Meta SAM Audio 将 “Segment Anything” 的理念扩展到音频领域,凭借 PE‑AV 跨模态感知、流匹配扩散 Transformer 的生成建模以及 多模态提示 的交互设计,实现了 准实时、统一、易用 的音频分离能力。它在 SOTA 基准上取得显著提升,并配套了完整的评估基准与开源工具,已在音频清理、媒体编辑、无障碍技术等多个场景展现出强大潜力。后续工作可聚焦于 相似声源分离、音频提示扩展 以及 移动端高效部署,进一步推动多模态音频 AI 的实用落地。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!