我正在为 VUI 工具编写和标记语音。我们正在使用 Google Cloud Wave-net对于我们的 TTS 服务,我一直在尝试使用 SSML 使 TTS 输出更自然。当我添加标签“prosody”时,TTS 输出会在标签开始前添加一个停顿,如下所示:
<speak>
Rebecca is allergic to <prosody rate="slow" range="high">soybean oil.</prosody> Would you like to cancel this order?
</speak>
在此示例中,TTS 输出在“to”和“soybean oil”之间暂停。这只是一个愚蠢的例句,但在我们真正的产品中,我们需要使用这种标签来强调和区分复杂的词。
有没有其他人遇到过这个问题?有什么建议吗?
最佳答案
看起来像range
不是 Google Cloud TTS ssml spec 的一部分.它是 Microsoft's spec 的一部分不过,也许这就是您的想法。
如果您仍在尝试消除这样的差距,理论上您可以使用 <seq>
标记以使片段稍微重叠,但这似乎非常困难。
关于text-to-speech - 在 SSML 中为 TTS 使用 <prosody> 标签时出现不需要的停顿,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52282588/