Inworld 推出全新 TTS-1.5:实时语音,延迟低,并支持多语言

AI资讯 4小时前 硕雀
2 0

Inworld TTS-1.5 是Inworld公司在2026年初推出的最新一代文本转语音(Text-to-Speech, TTS)模型。相较于其前身(如TTS-1和TTS-1-Max),TTS-1.5在实时性、延迟控制和多语言支持方面进行了重大升级,旨在满足游戏、VR/AR和互动娱乐等对“即时对话”有极高要求的场景。

以下是对TTS-1.5的详细介绍:

1. 核心技术亮点

  • 实时语音(Real-Time Voice)‍:
    • TTS-1.5专注于生成“实时”语音,即在用户输入文字后,语音合成的速度非常快,几乎可以实现“秒级”对话。它不仅能快速生成完整句子的语音,还能在文本输入的同时就开始生成语音(流式合成),这对于需要角色即时回应的游戏和社交应用至关重要。
  • 极低延迟(Low Latency)‍:
    • 延迟是指从用户说完话(或系统生成文字)到听到回应语音之间的时间间隔。TTS-1.5的延迟被优化到低于250毫秒(ms)。
    • 这一数值几乎是“无感”的,能够消除用户在对话中的等待感,让AI角色的反应速度接近人类,从而大幅提升沉浸感。
  • 多语言支持(Multilingual Support)‍:
    • 除了支持英文之外,TTS-1.5显著提升了对多语言的支持能力。它可以流畅处理不同语言的输入,甚至支持同一句话中出现不同语言的混合输入(例如中英文混合),生成自然流畅的语音。

2. 主要优势与价值

A. 成本效益极高

TTS-1.5的定价策略非常激进,被认为是市场上性价比最高的解决方案之一。

  • 定价:每分钟的生成成本约为0.005美元(约合每百万字符5美元)。
  • 竞争力:这一价格比市场上同类产品便宜约 25倍,极大地降低了开发者和企业的使用门槛。

B. 强大的定制与控制能力

  • 即时语音克隆:能够快速克隆特定的声音角色,使得虚拟角色的声音具有高度的唯一性和辨识度。
  • 情感与非语言控制:支持对语音情感的精细控制(如高兴、悲伤、愤怒等),以及非语言声音(如笑声、叹气声)的生成,提升对话的自然度。

C. 场景应用广泛

TTS-1.5的技术特性使其特别适用于以下领域:

  • 游戏对话系统:为NPC(非玩家角色)提供流畅的即时语音回应,提升玩家沉浸感。
  • 虚拟现实(VR)/元宇宙:在虚拟社交空间中,实现角色的实时互动。
  • 聊天机器人:为客服或社交聊天机器人提供自然、即时的语音回应。
  • 实时流媒体:在直播或语音内容创作中,实现即时的文字转语音。

3. 使用体验总结

Inworld TTS-1.5的推出,被视为TTS技术向“真实对话”迈进的重要一步。它不仅解决了过去TTS模型“卡顿”和“延迟高”的痛点,还通过极低的成本让更多独立开发者和小型团队能够使用高质量的AI语音技术。

一句话概括:Inworld TTS-1.5是一个‍“超低延迟、超高性价比、支持多语言的实时语音引擎”‍,是构建互动式AI角色的首选工具之一。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!