Meta发布多模态音频模型 SAM Audio

AI资讯 3小时前硕雀

2 0 0

Meta SAM Audio 概览

Meta 在 2025 年 12 月正式发布了 SAM Audio（Segment Anything Audio），这是首个 统一的多模态音频分离模型，能够通过 文本、视觉点击和时间段 三种自然提示，从任意混合音频中精准分离出目标声音。模型定位为 “最先进的统一模型”，旨在把人类对声音的直观交互方式（说、看、指）迁移到 AI 系统，实现 即点即分、即写即分 的音频编辑体验。

1. 关键特性

特性	说明	证据
多模态提示	- 文本提示（如 “狗叫声”） - 视觉提示：在视频帧中点击目标物体即可分离对应声音 - 时间段提示：在波形上划定区间进行批量分离（行业首创）	2, 4
准实时处理	推理实时因子 RTF≈0.7，快于实时播放速度	1
统一模型	同一模型同时支持三种提示，无需为不同任务训练专门模型	5
跨模态感知	通过 PE‑AV（Perception Encoder Audiovisual）‍ 将视觉特征与音频特征对齐，实现声源定位与分离	6, 11
大规模训练	基于超过 1 亿视频进行多模态对比学习，使用流匹配扩散 Transformer 生成建模框架	11, 12
评估体系	同步发布 SAM Audio‑Bench（首个 “in‑the‑wild” 音频分离基准）和 SAM Audio Judge（无参考感知评估模型）	10, 9
开源与接口	两大关键工具（PE‑AV 引擎、评估基准）已开源，开发者可通过 Meta AI API 调用模型进行音频分离	6, 18

2. 核心技术细节

PE‑AV 感知编码器
- 继承自 Meta 4 月开源的 Perception Encoder，扩展至视听双模态。它被比作模型的 “耳朵”，负责把视觉信息转化为音频特征的对齐表示。
- 通过 帧级对齐（逐帧将视频特征与音频特征匹配），实现对画面中说话者、乐器等声源的精准定位。
流匹配扩散 Transformer
- 采用 流匹配（Flow‑Match）扩散 Transformer 作为生成建模框架，能够在大规模多模态数据上进行自监督学习，提升对复杂混合音的分离能力。
- 该框架结合 对比学习 与 扩散生成，在 1 亿+ 视频上训练，显著提升跨模态特征的语义一致性。
提示接口实现
- 文本提示：模型将自然语言映射到声源语义向量。
- 视觉点击：用户在视频帧上点击目标，系统通过 PE‑AV 捕获对应的视觉特征并映射到音频空间，实现“一键分离”。
- 时间段提示：用户在波形上划定时间区间，模型利用时间对齐信息进行局部分离，适用于批量处理。

3. 性能表现

评测	结果	说明
通用音频分离 SOTA	在多种公开基准（音乐、语音、环境音）上显著超越现有最先进模型，且在特定领域（如语音分离）可匹配专用模型表现	1
实时因子	RTF≈0.7（快于实时）	1
资源效率	与同等精度的前代模型相比，计算资源消耗降低约 40%，分离精度提升 27%	7
基准覆盖	SAM Audio‑Bench 包含 500+ 实际场景音频，覆盖乐器、语音、通用音效等多类声源	10
感知评估	SAM Audio Judge 能在无参考音轨的情况下给出感知质量评分，已成为行业首个自动化音频分离评估工具	9

4. 典型应用场景

场景	示例	说明
音频清理	去除播客中的背景噪音、狗叫声等干扰	文本或时间段提示即可实现
媒体编辑	从音乐视频中“一键提取吉他声”或“隔离人声”	视觉点击实现直观操作
助听器/无障碍	与助听器厂商合作，实时分离目标说话者，提高聆听体验	多模态提示帮助定位目标声源
内容创作	为短视频自动生成纯净音轨，或为游戏音效进行分层编辑	支持批量时间段分离
科研分析	在多模态数据集上进行声源定位研究，利用 PE‑AV 的跨模态对齐特性	为音视频同步研究提供工具

5. 局限与未来方向

相似声源分离仍具挑战：在高度相似的音频（如同类乐器或相同说话者的多段对话）中，分离精度仍不够理想。
提示类型受限：当前仅支持文本、视觉点击和时间段三种提示，尚未支持 音频提示（即以已有音频片段作为参考）。
模型规模与部署：虽然已实现轻量化（资源降低 40%），但在移动端或极低算力设备上的部署仍需进一步压缩与加速。
安全与滥用防护：Meta 强调使用需遵守法律法规，但未公开具体的安全过滤机制，未来需要更完善的滥用检测与权限控制。

6. 获取方式

模型代码与权重：Meta 已在 GitHub（Meta‑AI）开源 PE‑AV 与 SAM Audio‑Bench，并提供 Docker 镜像供快速部署。
API 接入：开发者可通过 Meta AI Platform 申请 SAM Audio 的云端调用权限，支持 RESTful 接口进行音频分离。
文档与示例：官方文档提供 文本、视觉、时间段 三种提示的使用示例，以及基准评估脚本（SAM Audio Judge）。

结论
Meta SAM Audio 将 ‍“Segment Anything”‍ 的理念扩展到音频领域，凭借 PE‑AV 跨模态感知、流匹配扩散 Transformer 的生成建模以及 多模态提示 的交互设计，实现了 准实时、统一、易用 的音频分离能力。它在 SOTA 基准上取得显著提升，并配套了完整的评估基准与开源工具，已在音频清理、媒体编辑、无障碍技术等多个场景展现出强大潜力。后续工作可聚焦于 相似声源分离、音频提示扩展 以及 移动端高效部署，进一步推动多模态音频 AI 的实用落地。

SAM Audio 多模态音频模型

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！