智谱AI推出清影2.0,支持文本生成1080P高清视频

AI资讯 22小时前 硕雀
3 0

智谱AI 清影 2.0 概览


1. 背景与发布时间

  • 2025 年 11 月 28 日,智谱AI正式发布 清影 2.0,在原有清影产品的基础上实现了“文本直出 1080P 高清视频”的能力。
  • 同时,清影 2.0 已嵌入 清言 App,普通用户可免费体验,企业版提供 API 与私有化部署。

2. 核心技术架构

技术要点 作用 参考来源
CogVideoX 大模型 自研的文本‑视频生成模型,基于 DiTDiffusion Transformer)结构,支持文生视频、图生视频
3DVAE变分自编码器 将视频数据压缩至约 2%,显著降低算力消耗,同时保持帧间连贯性
3D RoPE旋转位置编码 加强时间维度的长程依赖建模,使运动更流畅、画面更稳定
CogSound 音效模型 为生成的视频自动匹配环境音、动作声,实现“视听一体”闭环
多模态指令解析 结构化 Prompt(摄像机语言、镜头、风格等)提升对复杂中文指令的遵循度

3. 功能特性

  1. 文本直接生成 1080P 高清视频(最长 10 秒),分辨率可达 1080p (部分场景支持 4K 60 fps)。
  2. 图像生成视频:上传 3:2 比例的 PNG/JPEG(≤5 MB)即可生成对应运动画面,人物动作与物理模拟更精准。
  3. 运动与镜头控制:用户可在 Prompt 中指定运动幅度、镜头语言、视角切换,实现多镜头组合。
  4. 多风格与艺术表现:支持卡通 3D、油画、黑白、电影感等多种风格,兼容用户自定义风格参数。
  5. 音效自动匹配:CogSound 为视频生成匹配的背景音乐与动作音效,形成完整视听体验。
  6. 批量生成:同一指令可一次性输出 4 个视频,提升创作效率。
  7. API 与私有化:企业版提供 RESTful API,支持大规模调用及本地部署,满足商业化需求。

4. 性能指标

项目 具体数值 说明
生成时长 约 30 秒生成 10 秒 1080p 视频(或 6 秒 视频)
推理成本 相比 1.0 版下降约 30 %
推理速度提升 约 6 倍加速
帧率 最高 60 fps(4K 模式)
用户活跃 上线首月累计生成视频超 100 万条

5. 使用方式与渠道

  • C端:通过 清言 App(PC、移动端、小程序)直接输入 Prompt 或上传图片,即可免费生成视频;会员可享受快速通道、无限生成。
  • B端:企业可申请 API Key,调用 REST 接口进行批量生成;亦可购买私有化部署服务,实现内部数据安全与高并发需求。

6. 商业模式与定价

  • 免费版:面向个人用户,提供每日若干次免费生成(普通模式)。
  • 付费版:企业 API 按生成时长或视频数量计费,价格相对行业竞争对手更具性价比;具体费用需在官方商务渠道获取。

7. 典型应用场景

场景 价值
内容创作(短视频、抖音、快手) 快速产出高质量视觉素材,降低剪辑成本
广告营销 根据品牌关键词即时生成多风格广告片段
教育培训 将教材文字转化为动画演示,提升学习兴趣
影视前期策划 通过 Prompt 快速验证镜头语言与场景设想
企业内部培训/汇报 自动生成配音视频,提升信息传递效率

8. 发展前景与路线图

  • 短期:继续优化 3D VAE 与 RoPE,提升长时段(>10 秒)视频连贯性;完善音效模型的多语言适配。
  • 中期:计划支持 8K 超高清、120 fps 超高帧率以及 实时交互式编辑(用户可在生成后微调运动轨迹)。
  • 长期:构建 “视频版 DALL·E” 生态,开放插件市场,让第三方开发者基于 CogVideoX 打造垂直行业解决方案(如电商、游戏、新闻等)。

小结:清影 2.0 通过自研的 CogVideoX、3D VAE、3D RoPE 与 CogSound 等关键技术,实现了中文文本直接生成 1080P(甚至 4K)高清视频的能力,兼顾速度、成本与可控性。免费版面向大众,企业版提供 API 与私有化部署,已在内容创作、广告营销等多个领域展现出强大的落地潜力。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!