使用 IBM Watson,他们可以选择进行说话人识别(人 1、人 2)等。
这仅适用于窄带模型。拥有这份报告固然很酷,但不能以牺牲准确的成绩单为代价。选择窄带模型会降低精度吗?我正在转录电影对话。
最佳答案
如果您想要说话人识别,那么窄带是您目前唯一的选择。
The speaker labels feature is currently beta functionality that is available for US English, Spanish, and Japanese narrowband models only.
在我看来,它可能会在未来推广到宽带型号。如果发生这种情况,宽带模型将更适合电影对话。
我不认为窄带会显着降低准确度;它的主要缺点是它需要更多的工作(通过 Watson 服务)才能产生相同质量的结果。
您始终可以尝试以两种方式转录剪辑(不使用扬声器标签)并比较结果,以亲自查看准确性是否有任何不同。
关于javascript - 语音转录 : Narrowband or Broadband?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41585200/