android - 音频索引 : Generating time-aligned text tags from audio file

标签 android python audio speech-recognition

我需要从大量长音频文件中挑选出单词和短语,最终目标是为每个短语的起点和终点生成时间戳。单词和短语是对需要时间标记的事件的描述和简单的评论。我看过对 Google 的 GAuI 的引用,但它已经消失了 (link)。我见过另一种解决方案 (Simple Audio Indexer),但它需要 IBM Watson。也许可以使用 Android 语音到文本处理器?谁能推荐一些其他的解决方案?我更喜欢使用 Python 接口(interface)的解决方案,但 Java 也是可能的。谢谢。

最佳答案

我花了很多时间试图让 Android 手机语音识别在自由格式模式下工作,但它还没有为黄金时段做好准备。我和其他人还没有找到每隔几秒钟关闭一次哔声的方法。

因此,我正在录制完整的音频文件并通过索引器运行它们。我找到了一个有趣的解决方案,叫做 Aeneas但它依赖于一个名为 eSpeak 的旧包,我无法在 OSX 上安装它(eSpeak 需要对 OSX 现在锁定的目录具有安装权限)。

接下来我继续尝试Simple Audio Indexer (赛)。在 IBM Watson BlueMix 上设置一个帐户非常轻松,它们为您提供 1000 分钟的免费 STT(语音到文本)时间。 SAI 易于安装、使用简单且运行良好。我用了pydub将我的 M4A/AAC 文件转换为 WAV。我确实遇到了需要 IBM 支持的问题,他们在两个小时内用一个运行参数解决了我的问题(需要将 inactivity_timeout 延长到默认的 30 秒以上)。现在它运作良好。

关于android - 音频索引 : Generating time-aligned text tags from audio file,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42078304/

相关文章:

python : extracting only the first element on a dictionary of list using functions

python - 通过 VIM 选择 Python 函数的最快方法是什么?

php - 如何在HTML5中实现简单的音频播放列表

java - 在 Java 中将音频从 44.1kHz 下采样到 16kHz

android - MediaPlayer同时播放多首歌曲 : only one is really playing

android - 如何从简单的 java 类调用 getSupportActionBar()

android - 在 KitKat 上使用 Android L Material Design

python,从父目录导入包

android - 通过 fragment 填充 ListView

java - 将十六进制转换为小端