谷歌发布Veo 3.1视频生成模型新增音频支持和对象添加功能

AI资讯 5个月前硕雀

63 0 0

Google Veo 3.1 视频生成模型概览

1. 版本背景与发布时间

Veo 3.1 于 2025 年 10 月正式发布，是在 2025 年 5 月推出的 Veo 3 基础上进行的全链路升级。
本次更新的核心目标是实现“声画合一”，让 AI 生成的视频在画面质量、叙事控制以及音频同步方面达到更高水平。

2. 主要技术特性

功能	关键描述	参考来源
分辨率与帧率	支持 720 p 与 1080 p 超清输出，帧率固定 24 fps。单次生成可选 4 s、6 s、8 s，配合 “Extend” 功能可延伸至约 148 s。
画面真实感	改进光影、材质渲染，提升细节层次，使生成画面更接近真实电影质感。
音频生成	首次在模型内部加入原生音频通道，能够自动生成环境音、对白、音效以及配乐。所有核心功能（如 “Ingredients to Video”、 “Frames to Video”、 “Extend”）均可同步输出对应音频，实现声画同步。
对象插入（Insert）‍	用户可在已有场景中添加任意元素（写实细节或奇幻生物），系统自动处理光照、阴影，使新对象自然融合。
对象移除（Remove）‍	支持无痕删除场景中的对象或角色，系统会重建背景与周围环境。目前该功能仍在逐步开放中。
叙事控制	通过更强的提示词理解，模型能够在长镜头中保持情节连贯，支持竖屏 16:9 以及传统横屏布局。
多平台接入	Veo 3.1 已集成至 Google 的 AI 生态： • Flow – AI 影视创作平台，提供可视化编辑界面； • Gemini API – 开发者可在自有应用中调用视频生成； • Vertex AI – 企业级部署与大规模使用。

3. 音频支持的细节

环境音：模型根据画面内容自动生成自然环境声（如风声、雨声、鸟鸣等）。
对白与配乐：在出现人物对话时，系统同步生成对应语音；同时可生成符合情绪的背景音乐。
音效同步：动作、碰撞等画面事件会触发对应的音效，确保视听一致。
全链路生成：从 “Ingredients to Video” 到 “Extend” 的完整流程均已打通音频通道，用户无需后期手动配音。

4. 对象添加与编辑功能

Insert：通过文字或图像提示，用户可以在生成的视频中插入新物体（如车辆、道具、角色等），系统会自动计算光照方向、阴影投射，使新对象与原场景无缝衔接。
Remove：提供“一键移除”功能，删除不需要的元素后，模型会填补空缺区域，重建背景纹理。该功能目前仍在测试阶段，预计将在后续版本中全面开放。
编辑工作流：在 Flow 平台中，这些编辑工具以“插入/删除”面板形式呈现，创作者可以像传统剪辑软件一样进行细粒度的场景调节。

5. 应用场景

场景	价值体现
内容创作	快速生成短视频、广告片段，配合自动音频提升制作效率。
影视前期	在剧本分镜阶段直接生成带音效的概念视频，帮助导演预览镜头节奏。
教育培训	生成带解说的教学视频，适用于在线课程与科普动画。
游戏与虚拟现实	为游戏过场或 VR 场景生成动态视频素材，降低美术成本。
企业营销	通过 Flow 快速产出品牌宣传片，配合自动音效提升品牌感官体验。

6. 使用方式与可获取性

免费试用：Veo 3.1 已在 Flow 平台提供免费试用额度，开发者可通过 Gemini API 进行调用测试。
企业付费：在 Vertex AI 上可按需购买算力套餐，适用于大规模生成需求。
文档与示例：Google 官方提供详细的 API 文档、示例 Prompt 与最佳实践指南，帮助用户快速上手。

总结
Veo 3.1 将视频生成提升到“声画合一”的新阶段，音频生成与对象编辑的双重突破，使得 AI 视频不再是单纯的画面输出，而是具备完整叙事与后期编辑能力的创作平台。通过 Flow、Gemini API 与 Vertex AI 的多渠道接入，创作者、企业以及开发者均可在不同层级上灵活使用，开启 AI 视频制作的全新可能。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！