腾讯发布混元世界模型 1.5，开启实时交互的虚拟世界

AI资讯 2个月前硕雀

33 0 0

腾讯混元世界模型 1.5（Tencent HY WorldPlay）概览

1. 背景与发布时间

2025 年 12 月 17 日，腾讯正式发布混元世界模型 1.5，命名为 Tencent HY WorldPlay。
本次发布标志着腾讯在生成式 AI 与沉浸式交互领域的里程碑，首次向外部开放实时交互的完整框架。

2. 核心能力

能力	说明
实时交互生成	通过 Context Forcing 蒸馏与流式推理优化，模型可实现 24 FPS、720 P 视频流的实时生成，满足游戏级交互体验
长上下文记忆	引入重构记忆机制与长上下文蒸馏，在用户在同一场景中来回移动时保持三维结构的一致性，实现空间记忆与几何连贯
多模态输入	支持文字、单张图片甚至手绘草图作为创作起点，自动生成对应的 3D 场景或视频
交互控制	用户可使用键盘、鼠标或手柄自由操控虚拟相机，实现“像玩游戏一样”探索 AI 生成的世界
全链路开源	同步开源数据、训练、流式推理部署全链路框架，提供 GitHub、Hugging Face 等多平台代码与模型权重

3. 技术创新

自回归扩散模型 + 强化学习
- 采用 自回归视频扩散模型，结合基于 3D 奖励的强化学习后训练，提升生成视频的视觉质量与几何一致性。
Context Forcing 蒸馏
- 通过强制上下文对齐的蒸馏方式，使模型在流式推理时保持上下文连贯，显著提升帧率与响应速度。
重构记忆机制
- 引入 空间记忆重构，在用户返回已探索区域时能够恢复先前的三维结构，解决传统生成模型的“记忆丢失”问题。
全链路自动化流水线
- 从 大规模 3D 场景渲染数据 的采集、标注到 模型训练、持续训练、部署 均实现自动化，降低研发成本并提升迭代效率。

4. 实时交互实现细节

流式推理：模型在推理阶段采用 分块渲染 + 增量更新，每块渲染完成后立即送回前端，保证 24 FPS 的流畅度。
输入‑输出速率：720 P 视频流的生成速率约为 30 ms/帧，在普通消费级 GPU（如 RTX 4090）上即可运行。
控制接口：提供 WebSocket 与 SDK 两种实时交互接口，开发者可直接将键盘、鼠标、手柄信号映射到虚拟相机的平移、旋转、缩放等操作。

5. 典型应用场景

场景	价值
AI 游戏关卡生成	开发者只需提供文字/图片描述，即可快速生成可交互的 3D 关卡，缩短研发周期。
影视前期预览	导演可实时“走进” AI 生成的场景，快速评估镜头布局与灯光效果。
教育与培训	通过交互式虚拟实验室，让学生在真实感十足的环境中进行实验操作。
虚拟社交	用户可在 AI 生成的沉浸式空间中进行实时社交、活动策划。
具身智能研究	为机器人、智能体提供高保真、可交互的模拟环境，促进强化学习与感知研究。

6. 开放生态与获取方式

开源仓库：模型代码、训练脚本、推理服务均已同步至 GitHub 与 Hugging Face，提供 MIT License（仅限商业与科研使用）。
在线体验：用户可登录 混元 3D 官网（https://worldplay.tencent.com ）申请体验账号，直接在浏览器中进行文字/图片创作并实时交互。
SDK 与 API：提供 Python、C++、JavaScript 三套 SDK，支持云端部署或本地离线运行，满足不同业务需求。

7. 未来展望

更高分辨率：计划在 2026 年实现 1080 P、60 FPS 的实时生成。
多模态协同：将进一步融合 音频、文本、动作捕捉 等模态，实现全感官沉浸。
行业深度定制：通过 模型蒸馏 + 专业数据微调，为游戏、影视、教育等垂直行业提供专属模型版本。

总结：腾讯混元世界模型 1.5 通过创新的自回归扩散、记忆重构与流式蒸馏技术，实现了 24 FPS、720 P 的实时交互生成，并首次开源全链路框架，为 AI 生成式内容与具身交互打开了全新可能。它不仅在技术层面突破了生成速度与记忆一致性的瓶颈，也在生态层面提供了开放的工具链和丰富的应用场景，预示着生成式 AI 与沉浸式虚拟世界的深度融合进入实用化阶段。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！