有人知道已经托管的任何好的服务器端语音识别引擎吗? IE。我希望能够调用一个简单的 Web API 来发布一些声音数据并获取文本。不一定是免费的 - 但希望可以自由地进行实验。
最佳答案
有多种 IVR 服务将整个 VOIP session (电话调用)作为一个完整的应用程序托管,而不是“按菜单点菜”提供单独的服务交易。如果您想让您的程序看起来像 VOIP 调用,您也许可以使用其中一些服务来完成它。
Voxeo发布了list of free (and low cost) IVR hosting providers面向有限使用的开发人员。毫不奇怪,所有这些都需要注册。
-
VoiceGenie Developer Workshop(并入 Genesys) -
Loquendo C@fé状态未知 -
Nuance Café(Bevocal)现在Nuance On-Demand -
Plum Voice Hosting现在Plum DEV - VOICE Testcenter of the VOICE Community
另一种可能性是直接询问 Vlingo , Twilio ,或Tropo因为他们可能会卖给你你所需要的东西。
更新:2012 年 7 月 25 日
AT&T 已宣布推出 Speech API在 。您向其发送音频 – 它会返回 XML 或 JSON 数据格式的文本。另请参阅developer site 。
更新:2012 年 8 月 27 日
另一种可能性是Dragon Mobile SDK来自 Nuance,它的目标客户是寻求 API 的个人开发者,该 API 可为消费者应用程序提供语音和/或文本转语音功能。
更新:2012 年 9 月 21 日
似乎有几个新的提供商可以提供您正在寻找的东西:语音样本输入、文本输出。 Programmable Web 上列出了以下内容:
另请注意 Loquendo现在是 Nuance 的一部分。
更新:2013 年 6 月 27 日
AT&T 的语音 API 有 few targeted SDKs ( Android 、iOS、PhoneGap、Titanium、Windows) - 其中一些托管在 GitHub
上。甚至还有source for a Unity 3D demo 。
更新:2014 年 1 月 23 日
OneTok已将其产品重新设计为适用于 iOS
和 Android
的 SDK。
显然,Voice Genie 产品已被 Genesys 彻底消化。以至于几乎找不到它的踪迹。鉴于 Genesys 面向大型企业的定位,很难知道他们是否有任何小批量或商品产品。
Plumvoice似乎扩大了他们的产品范围。
与之前的许多一样,Vlingo现在是 Nuance 的一部分。
(我尝试更新原始答案中任何损坏的链接。)
更新:2015 年 10 月 31 日
保持这个答案最新是一项西西弗斯式的任务。
Voxeo 的免费(且低成本)IVR 托管提供商列表现已重定向至 AT&T Speech API ,完全披露,我现在在其中有实质性参与,因此,我无法在不质疑我的可信度的情况下提供几乎任何内容的链接。
也就是说,语音/NLP 市场上有很多参与者。尽职尽责。
更新:2016 年 4 月 8 日
关于cloud - 服务器端语音识别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3113864/