Inworld 推出全新 TTS-1.5：实时语音，延迟低，并支持多语言

AI资讯 2个月前硕雀

30 0 0

Inworld TTS-1.5 是Inworld公司在2026年初推出的最新一代文本转语音（Text-to-Speech, TTS）模型。相较于其前身（如TTS-1和TTS-1-Max），TTS-1.5在实时性、延迟控制和多语言支持方面进行了重大升级，旨在满足游戏、VR/AR和互动娱乐等对“即时对话”有极高要求的场景。

以下是对TTS-1.5的详细介绍：

1. 核心技术亮点

实时语音（Real-Time Voice）‍：
- TTS-1.5专注于生成“实时”语音，即在用户输入文字后，语音合成的速度非常快，几乎可以实现“秒级”对话。它不仅能快速生成完整句子的语音，还能在文本输入的同时就开始生成语音（流式合成），这对于需要角色即时回应的游戏和社交应用至关重要。
极低延迟（Low Latency）‍：
- 延迟是指从用户说完话（或系统生成文字）到听到回应语音之间的时间间隔。TTS-1.5的延迟被优化到低于250毫秒（ms）。
- 这一数值几乎是“无感”的，能够消除用户在对话中的等待感，让AI角色的反应速度接近人类，从而大幅提升沉浸感。
多语言支持（Multilingual Support）‍：
- 除了支持英文之外，TTS-1.5显著提升了对多语言的支持能力。它可以流畅处理不同语言的输入，甚至支持同一句话中出现不同语言的混合输入（例如中英文混合），生成自然流畅的语音。

2. 主要优势与价值

A. 成本效益极高

TTS-1.5的定价策略非常激进，被认为是市场上性价比最高的解决方案之一。

定价：每分钟的生成成本约为0.005美元（约合每百万字符5美元）。
竞争力：这一价格比市场上同类产品便宜约 25倍，极大地降低了开发者和企业的使用门槛。

B. 强大的定制与控制能力

即时语音克隆：能够快速克隆特定的声音角色，使得虚拟角色的声音具有高度的唯一性和辨识度。
情感与非语言控制：支持对语音情感的精细控制（如高兴、悲伤、愤怒等），以及非语言声音（如笑声、叹气声）的生成，提升对话的自然度。

C. 场景应用广泛

TTS-1.5的技术特性使其特别适用于以下领域：

游戏对话系统：为NPC（非玩家角色）提供流畅的即时语音回应，提升玩家沉浸感。
虚拟现实（VR）/元宇宙：在虚拟社交空间中，实现角色的实时互动。
聊天机器人：为客服或社交聊天机器人提供自然、即时的语音回应。
实时流媒体：在直播或语音内容创作中，实现即时的文字转语音。

3. 使用体验总结

Inworld TTS-1.5的推出，被视为TTS技术向“真实对话”迈进的重要一步。它不仅解决了过去TTS模型“卡顿”和“延迟高”的痛点，还通过极低的成本让更多独立开发者和小型团队能够使用高质量的AI语音技术。

一句话概括：Inworld TTS-1.5是一个‍“超低延迟、超高性价比、支持多语言的实时语音引擎”‍，是构建互动式AI角色的首选工具之一。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！