腾讯发布混元世界模型 1.5,开启实时交互的虚拟世界

AI资讯 20小时前 硕雀
5 0

腾讯混元世界模型 1.5(Tencent HY WorldPlay)概览


1. 背景与发布时间

  • 2025 年 12 月 17 日,腾讯正式发布混元世界模型 1.5,命名为 Tencent HY WorldPlay
  • 本次发布标志着腾讯在生成式 AI 与沉浸式交互领域的里程碑,首次向外部开放实时交互的完整框架。

2. 核心能力

能力 说明
实时交互生成 通过 Context Forcing 蒸馏 与流式推理优化,模型可实现 24 FPS、720 P 视频流的实时生成,满足游戏级交互体验
长上下文记忆 引入 重构记忆机制 与 长上下文蒸馏,在用户在同一场景中来回移动时保持三维结构的一致性,实现空间记忆与几何连贯
多模态输入 支持文字、单张图片甚至手绘草图作为创作起点,自动生成对应的 3D 场景或视频
交互控制 用户可使用 键盘、鼠标或手柄 自由操控虚拟相机,实现“像玩游戏一样”探索 AI 生成的世界
全链路开源 同步开源 数据、训练、流式推理部署 全链路框架,提供 GitHub、Hugging Face 等多平台代码与模型权重

3. 技术创新

  1. 自回归扩散模型 + 强化学习
    • 采用 自回归视频扩散模型,结合基于 3D 奖励的强化学习后训练,提升生成视频的视觉质量与几何一致性。
  2. Context Forcing 蒸馏
    • 通过强制上下文对齐的蒸馏方式,使模型在流式推理时保持上下文连贯,显著提升帧率与响应速度。
  3. 重构记忆机制
    • 引入 空间记忆重构,在用户返回已探索区域时能够恢复先前的三维结构,解决传统生成模型的“记忆丢失”问题。
  4. 全链路自动化流水线
    • 从 大规模 3D 场景渲染数据 的采集、标注到 模型训练、持续训练、部署 均实现自动化,降低研发成本并提升迭代效率。

4. 实时交互实现细节

  • 流式推理:模型在推理阶段采用 分块渲染 + 增量更新,每块渲染完成后立即送回前端,保证 24 FPS 的流畅度。
  • 输入‑输出速率:720 P 视频流的生成速率约为 30 ms/帧,在普通消费级 GPU(如 RTX 4090)上即可运行。
  • 控制接口:提供 WebSocket 与 SDK 两种实时交互接口,开发者可直接将键盘、鼠标、手柄信号映射到虚拟相机的平移、旋转、缩放等操作。

5. 典型应用场景

场景 价值
AI 游戏关卡生成 开发者只需提供文字/图片描述,即可快速生成可交互的 3D 关卡,缩短研发周期。
影视前期预览 导演可实时“走进” AI 生成的场景,快速评估镜头布局与灯光效果。
教育与培训 通过交互式虚拟实验室,让学生在真实感十足的环境中进行实验操作。
虚拟社交 用户可在 AI 生成的沉浸式空间中进行实时社交、活动策划。
具身智能研究 为机器人、智能体提供高保真、可交互的模拟环境,促进强化学习与感知研究。

6. 开放生态与获取方式

  • 开源仓库:模型代码、训练脚本、推理服务均已同步至 GitHub 与 Hugging Face,提供 MIT License(仅限商业与科研使用)。
  • 在线体验:用户可登录 混元 3D 官网https://worldplay.tencent.com )申请体验账号,直接在浏览器中进行文字/图片创作并实时交互。
  • SDK 与 API:提供 Python、C++、JavaScript 三套 SDK,支持云端部署或本地离线运行,满足不同业务需求。

7. 未来展望

  • 更高分辨率:计划在 2026 年实现 1080 P、60 FPS 的实时生成。
  • 多模态协同:将进一步融合 音频、文本、动作捕捉 等模态,实现全感官沉浸。
  • 行业深度定制:通过 模型蒸馏 + 专业数据微调,为游戏、影视、教育等垂直行业提供专属模型版本。

总结:腾讯混元世界模型 1.5 通过创新的自回归扩散、记忆重构与流式蒸馏技术,实现了 24 FPS、720 P 的实时交互生成,并首次开源全链路框架,为 AI 生成式内容与具身交互打开了全新可能。它不仅在技术层面突破了生成速度与记忆一致性的瓶颈,也在生态层面提供了开放的工具链和丰富的应用场景,预示着生成式 AI 与沉浸式虚拟世界的深度融合进入实用化阶段。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!