我如何编写语音识别引擎(使用 Microsoft Speech SDK)以“收听”视频文件并将检测结果保存到文件中?
最佳答案
这与 this question 非常相似并且有一个非常相似的答案。您需要分离出音频部分,将其转换为 WAV 格式,并将其发送到一个 inproc 识别器。
但是,它存在我之前描述的相同问题(需要训练,假设单一语音,并假设麦克风离说话者很近)。如果是这样的话,那么您可能会得到相当不错的结果。如果不是这种情况(即,您正在尝试转录电视节目,或者更糟的是,转录某种摄像机音频),那么结果可能不会令人满意。
关于c++ - 如何对视频文件使用语音识别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1700651/