audio - 直接来自音频/转录的语音到文本(语音识别)

标签 audio text mp3 speech-recognition speech

关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。

想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。

2年前关闭。

Improve this question

需要能够使用语音到文本(语音识别)算法以高精度将包含语音的音频(例如来自 .MP3、其他音频格式)转换或转录为文本转录。
有许多可用的方法可以做到这一点，这些方法越来越准确，但专为对设备麦克风说话的语音而设计(例如 Google 翻译/相应的网络 API、iOS 版 Dragon 应用程序)。
我需要一种将音频文件直接输入语音识别引擎/API 的方法。
不想通过扬声器播放音频并用麦克风捕获它 - 长音频文件需要花费大量时间，并且会降低音频质量和由此产生的转录质量。
是否存在用于此的 Web 服务、API 或代码？假设麦克风将是源的现有服务之一是否有某种包装？

谢谢

最佳答案

现在有一个相对较新的服务，允许 Speech to Text 自动转录，以及一个用于人工编辑结果的优秀网络界面。它的:

https://trint.com/

我们已经使用了它，并对结果感到满意。转录当然不是完美的，但它是一个很好的开始，它允许准备好的人工编辑。

现在，IBM Bluemix/Watson 还提供了一个新的 API 和服务。您可以在此处试用免费演示:

https://speech-to-text-demo.mybluemix.net/

该服务在将音频(来自麦克风或音频文件)转换为文本方面做得相当不错。目前至少在演示中似乎不使用 MP3，但会使用 wav 和其他格式。此服务具有完整的 API，主要设计为内置于应用程序中。

关于audio - 直接来自音频/转录的语音到文本(语音识别)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23860104/

上一篇：apache-spark - Spark 执行器内存减少到 1/2

下一篇：react-native - 将 Region latitudeDelta/longitudeDelta 转换成近似的 zoomLevel

相关文章：

css - 没有 'controls' 的音频元素在 Chrome 中消失

android - 从URI传输音频时，opensl中的音频播放器在哪里缓冲？

javascript - 为什么此代码可以在单独的文件上运行但不能内联

iphone - 如何在 iPhone 或 iPad 上以编程方式将 .caf 转换为 .mp3 文件？

php - Safari 和 iPhone Safari 播放为 "live streaming"，文件大小有限(MySQL、PHP)

jquery - 使用 jquery 替换 <div> 中的 <p> 中的单词

python - 从文本文件中提取字符

iphone - 如何在不知道编码的情况下读取文本文件

python - 上传后自动将 WAV 音频文件转换为服务器上的 MP3？

c - Gstreamer-mp3 上的持续时间查询错误