audio - 不同语言(非英语)的PESQ,STOI得分(语音质量)

标签 audio speech-recognition speech-to-text speech

我想使用印地语(非英语)中的一些音频数据的PESQ,STOI分数。对于英语,我可以找到PESQ算法/代码并使用相同的代码。像:-StackOverflow questionPython pesq(PyPI) STOI

我们是否可以对印地语或其他语言的音频使用相同的代码来确定PESQ / STOI分数?

大多数时候,我发现PESQ用于“语音质量评估”(不是英语专用)。同样在PESQ score comparison in different languages PESQ score comparison in different languages_2中,他们刚刚比较了不同语言的PESQ分数。他们没有为他们使用不同的代码。

但是有些像A Methodology for Improving PESQ accuracy for Chinese Speech的论文
,写在结论部分:“本文正在评估PESQ,以研究在计算语音质量时是否考虑了汉语语音的辅音和声调清晰度。在进行的两个实验中,发现在嘈杂和安静(无噪声)的情况下,主观清晰度与PESQ的计算质量之间的相关性都很低”,

并且在Performance Evaluation and Accuracy Upgrading of PESQ in Chinese Environment 中,结论部分提到:-“通过此结果
大量的主观测试数据,反复指出
PESQ的中文分数被低估了,
尽管皮尔逊相关系数高达
除外。 PESQ的得分远低于经验
语音服务在中间时来自客户
质量。 ”

因此,对于其他语言(当前,我的情况是印度语,印度语),我应该直接使用常规的PESQ方法还是必须对其进行修改?如果我必须进行修改,那么任何适用于某些印度语言(或英语以外的其他语言)的想法都将非常有帮助。

最佳答案

不知道您是否仍然需要建议,只需对您的问题发表一些评论:

  • STOI是一种用于预测(相当)嘈杂语音的可懂度的指标,而不是语音质量(通常在静默状态下评估)。该方法的基本主观测试是清晰度测试(要求获得公认的单词/音节/词义等)。即使可以免费下载源代码,也仅允许出于研究目的而非商业用途免费使用。该指标的范围相当有限,我的建议是完全不使用它。
  • PESQ(ITU-T P.862)已过时并在10年前被取代-不再使用!即使通过出售PESQ许可证来赚钱的公司也不推荐这种方法。顺便说一句,类似于STOI,PESQ的合法使用受到更多限制:引用代码只能用于测试例如平台相关的实现。为了学术和商业目的,必须购买许可证!从一开始,特别是大学,根本就没有注意到这一点。
  • 由于PESQ的源代码可在ITU-T网站上找到,因此人们将它用于许多目的,而这些目的并非旨在(例如,声音路径或降噪算法)。如今,您使用PESQ获得的所有结果均无法使用,因为它们不能反射(reflect)当前行业中使用的最新技术。
  • 语音质量预测的后继和最新方法是POLQA(ITU-T P.863)。它最近更新到版本3.0。适用与PESQ相同的许可方面;由于许多用户滥用了PESQ的(相当宽松的)源代码策略,因此引用实现不再可用,因此您必须购买有效的许可证。
  • 关于语言依赖性:语音质量预测指标通常可能包含有关语言的固有偏差(但也可能涉及其他可能降级的权重)。通常,这源自此类模型的可用训练数据,这些数据可以从某些实验室以某些语言获得,并包含某些降级。因此,您提到的工作所观察到的变化并不罕见,尤其是对于未知/看不见的降级和语言。特别是对于标准化测试,绝对强烈建议不要以任何方式修改预测算法。考虑这种变化的典型方式是在预测的MOS之上应用某些语言或降级的映射函数,即将标准模型输出“转换”为“更好”的比例。
  • 关于audio - 不同语言(非英语)的PESQ,STOI得分(语音质量),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60267864/

    相关文章:

    python - 如何使用 python 批量/批量转录 wav 文件?

    适用于 Linux 的 Python 可控命令行音频播放器

    ios - 在 iOS 中在后台播放音频文件

    java - Sphinx4 的 SphinxTrain 的示例配置/属性 xml 文件

    python - 语音队列寻找句子中口语单词的重复部分

    speech-recognition - pocketsphinx - 如何从关键字识别切换到语法模式

    android - 如何在android语音识别中同时使用多种语言

    android - 如何同步 AudioRecord 和 AudioTrack

    audio - 如何使AIML机器人发出声音响应?有没有办法使这种声音成为自定义声音?

    nlp - 如何计算音频文件中的口语音节数?