阿里万相2.6发布:支持“角色扮演”与多分镜控制

AI解读 2个月前 硕雀
53 0

阿里通义万相 2.6 系列模型概览

阿里在 2025 年 12 月 16 日正式发布了全新一代 通义万相 2.6,针对专业影视制作和创意图像创作场景进行了多项升级,核心亮点集中在 ‍“角色扮演”‍ 与 ‍“多分镜控制”‍ 两大功能上。


1. 角色扮演(Role‑Playing)

  • 外观与音色保持:模型能够读取用户上传的原始视频,捕捉人物的面部特征、服装、动作以及声音音色,在生成新视频时保持这些属性不变,实现“入戏”式的角色扮演。
  • 单人/多人/人与物合拍:无论是单人独秀、多人对话,还是人与虚拟物体的互动,万相 2.6 都能依据提示词自动完成角色演绎、画面配音等环节。
  • 交互式创作:用户只需提供简短文字或音频指令,模型即可生成符合科幻、悬疑、古装等多种风格的短片,让普通用户也能快速实现“电影主角梦”。

2. 多分镜控制(Multi‑Shot / Multi‑Scene)

  • 自动脚本生成:通过高层语义理解,万相 2.6 能把用户的简要提示转化为完整的多分镜脚本,自动规划镜头数量、景别切换、时长分配等叙事要素。
  • 跨镜头一致性:在多镜头切换过程中,模型保持主体、场景布局、服饰细节、背景氛围等关键视觉信息的一致性,显著降低人物变形或换脸等问题。
  • 长时视频:单次生成最长可达 15 秒(相较于之前的 10 秒),提升了画面时空内容容量,支持更完整的叙事结构。

3. 其他重要升级

功能 说明
自然音画同步 多人对话场景生成更稳定,声音质感提升,配乐与音效更自然。
音频驱动生成 用户提供文本+音频,模型即可驱动视频生成,实现多镜头演绎。
画质提升 细节渲染、光影效果均有显著增强,接近影视级别。
平台上线 已同步上线阿里云百炼、万相官网等渠道,供用户直接使用。

4. 使用场景示例

  1. 个人创作:上传自拍视频,输入“科幻悬疑风格的追逐”,模型自动生成 4‑5 镜头的短片,保持人物外观与声音一致。
  2. 企业宣传:提供产品演示音频,输入“高端科技感叙事”,模型生成多镜头产品介绍视频,统一品牌视觉。
  3. 教育培训:教师上传课堂讲解视频,模型依据教学大纲生成分镜教学视频,提升课堂互动性。

总结
通义万相 2.6 通过 角色扮演 与 多分镜控制 两大核心能力,实现了从“单一画面生成”向“电影级叙事创作”的跨越。它不仅让普通用户能够轻松“入戏”,还能满足专业影视制作对镜头连贯性、画质与音效的高要求,为内容创作者提供了更强大、更灵活的 AI 创作工具。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!