text-to-speech - 在 SSML 中为 TTS 使用 <prosody> 标签时出现不需要的停顿

标签 text-to-speech ssml

我正在为 VUI 工具编写和标记语音。我们正在使用 Google Cloud Wave-net对于我们的 TTS 服务,我一直在尝试使用 SSML 使 TTS 输出更自然。当我添加标签“prosody”时,TTS 输出会在标签开始前添加一个停顿,如下所示:

<speak> Rebecca is allergic to <prosody rate="slow" range="high">soybean oil.</prosody> Would you like to cancel this order? </speak>

在此示例中,TTS 输出在“to”和“soybean oil”之间暂停。这只是一个愚蠢的例句,但在我们真正的产品中,我们需要使用这种标签来强调和区分复杂的词。

有没有其他人遇到过这个问题?有什么建议吗?

最佳答案

看起来像range不是 Google Cloud TTS ssml spec 的一部分.它是 Microsoft's spec 的一部分不过,也许这就是您的想法。

如果您仍在尝试消除这样的差距,理论上您可以使用 <seq>标记以使片段稍微重叠,但这似乎非常困难。

关于text-to-speech - 在 SSML 中为 TTS 使用 <prosody> 标签时出现不需要的停顿,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52282588/

相关文章:

c# - 通过 Xamarin 在 UWP 上使用文本转语音

android 文本转语音;男声和女声之间切换

java - TTS : How to convert text into SSML?

c# - C# SAPI 可以说 SSML 字符串吗?

c - 开源文本到语音库

android - 未可靠地调用 UtteranceProgressListener

Azure 语音服务 CLI,使用 SSML 错误代码 : 1007

dialogflow-es - Google 上的 SSML Actions,更改说话语言

c# - SpeechSynthesizer .NET 控制音高

android - Android TTS 是否支持语音合成标记语言?