我需要从大量长音频文件中挑选出单词和短语,最终目标是为每个短语的起点和终点生成时间戳。单词和短语是对需要时间标记的事件的描述和简单的评论。我看过对 Google 的 GAuI 的引用,但它已经消失了 (link)。我见过另一种解决方案 (Simple Audio Indexer),但它需要 IBM Watson。也许可以使用 Android 语音到文本处理器?谁能推荐一些其他的解决方案?我更喜欢使用 Python 接口(interface)的解决方案,但 Java 也是可能的。谢谢。
最佳答案
我花了很多时间试图让 Android 手机语音识别在自由格式模式下工作,但它还没有为黄金时段做好准备。我和其他人还没有找到每隔几秒钟关闭一次哔声的方法。
因此,我正在录制完整的音频文件并通过索引器运行它们。我找到了一个有趣的解决方案,叫做 Aeneas但它依赖于一个名为 eSpeak 的旧包,我无法在 OSX 上安装它(eSpeak 需要对 OSX 现在锁定的目录具有安装权限)。
接下来我继续尝试Simple Audio Indexer (赛)。在 IBM Watson BlueMix 上设置一个帐户非常轻松,它们为您提供 1000 分钟的免费 STT(语音到文本)时间。 SAI 易于安装、使用简单且运行良好。我用了pydub
将我的 M4A/AAC 文件转换为 WAV。我确实遇到了需要 IBM 支持的问题,他们在两个小时内用一个运行参数解决了我的问题(需要将 inactivity_timeout 延长到默认的 30 秒以上)。现在它运作良好。
关于android - 音频索引 : Generating time-aligned text tags from audio file,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42078304/