text-to-speech - 在 SSML 中为 TTS 使用 <prosody> 标签时出现不需要的停顿

我正在为 VUI 工具编写和标记语音。我们正在使用 Google Cloud Wave-net对于我们的 TTS 服务，我一直在尝试使用 SSML 使 TTS 输出更自然。当我添加标签“prosody”时，TTS 输出会在标签开始前添加一个停顿，如下所示:

<speak> Rebecca is allergic to <prosody rate="slow" range="high">soybean oil.</prosody> Would you like to cancel this order? </speak>

在此示例中，TTS 输出在“to”和“soybean oil”之间暂停。这只是一个愚蠢的例句，但在我们真正的产品中，我们需要使用这种标签来强调和区分复杂的词。

有没有其他人遇到过这个问题？有什么建议吗？

最佳答案

看起来像range不是 Google Cloud TTS ssml spec 的一部分.它是 Microsoft's spec 的一部分不过，也许这就是您的想法。

如果您仍在尝试消除这样的差距，理论上您可以使用 <seq>标记以使片段稍微重叠，但这似乎非常困难。

关于text-to-speech - 在 SSML 中为 TTS 使用 <prosody> 标签时出现不需要的停顿，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52282588/

相关文章：

c# - 通过 Xamarin 在 UWP 上使用文本转语音