阿里万相2.6发布:支持“角色扮演”与多分镜控制

AI解读 3个月前硕雀

68 0 0

阿里通义万相 2.6 系列模型概览

阿里在 2025 年 12 月 16 日正式发布了全新一代 通义万相 2.6，针对专业影视制作和创意图像创作场景进行了多项升级，核心亮点集中在 ‍“角色扮演”‍ 与 ‍“多分镜控制”‍ 两大功能上。

1. 角色扮演（Role‑Playing）

外观与音色保持：模型能够读取用户上传的原始视频，捕捉人物的面部特征、服装、动作以及声音音色，在生成新视频时保持这些属性不变，实现“入戏”式的角色扮演。
单人/多人/人与物合拍：无论是单人独秀、多人对话，还是人与虚拟物体的互动，万相 2.6 都能依据提示词自动完成角色演绎、画面配音等环节。
交互式创作：用户只需提供简短文字或音频指令，模型即可生成符合科幻、悬疑、古装等多种风格的短片，让普通用户也能快速实现“电影主角梦”。

2. 多分镜控制（Multi‑Shot / Multi‑Scene）

自动脚本生成：通过高层语义理解，万相 2.6 能把用户的简要提示转化为完整的多分镜脚本，自动规划镜头数量、景别切换、时长分配等叙事要素。
跨镜头一致性：在多镜头切换过程中，模型保持主体、场景布局、服饰细节、背景氛围等关键视觉信息的一致性，显著降低人物变形或换脸等问题。
长时视频：单次生成最长可达 15 秒（相较于之前的 10 秒），提升了画面时空内容容量，支持更完整的叙事结构。

3. 其他重要升级

功能	说明
自然音画同步	多人对话场景生成更稳定，声音质感提升，配乐与音效更自然。
音频驱动生成	用户提供文本+音频，模型即可驱动视频生成，实现多镜头演绎。
画质提升	细节渲染、光影效果均有显著增强，接近影视级别。
平台上线	已同步上线阿里云百炼、万相官网等渠道，供用户直接使用。

4. 使用场景示例

个人创作：上传自拍视频，输入“科幻悬疑风格的追逐”，模型自动生成 4‑5 镜头的短片，保持人物外观与声音一致。
企业宣传：提供产品演示音频，输入“高端科技感叙事”，模型生成多镜头产品介绍视频，统一品牌视觉。
教育培训：教师上传课堂讲解视频，模型依据教学大纲生成分镜教学视频，提升课堂互动性。

总结
通义万相 2.6 通过 角色扮演 与 多分镜控制 两大核心能力，实现了从“单一画面生成”向“电影级叙事创作”的跨越。它不仅让普通用户能够轻松“入戏”，还能满足专业影视制作对镜头连贯性、画质与音效的高要求，为内容创作者提供了更强大、更灵活的 AI 创作工具。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！