audio - 不同语言(非英语)的PESQ，STOI得分(语音质量)

我想使用印地语(非英语)中的一些音频数据的PESQ，STOI分数。对于英语，我可以找到PESQ算法/代码并使用相同的代码。像:-StackOverflow question，Python pesq(PyPI) STOI。

我们是否可以对印地语或其他语言的音频使用相同的代码来确定PESQ / STOI分数？

大多数时候，我发现PESQ用于“语音质量评估”(不是英语专用)。同样在PESQ score comparison in different languages PESQ score comparison in different languages_2中，他们刚刚比较了不同语言的PESQ分数。他们没有为他们使用不同的代码。

但是有些像A Methodology for Improving PESQ accuracy for Chinese Speech的论文
，写在结论部分:“本文正在评估PESQ，以研究在计算语音质量时是否考虑了汉语语音的辅音和声调清晰度。在进行的两个实验中，发现在嘈杂和安静(无噪声)的情况下，主观清晰度与PESQ的计算质量之间的相关性都很低”，

并且在Performance Evaluation and Accuracy Upgrading of PESQ in Chinese Environment 中，结论部分提到:-“通过此结果
大量的主观测试数据，反复指出
PESQ的中文分数被低估了，
尽管皮尔逊相关系数高达
除外。 PESQ的得分远低于经验
语音服务在中间时来自客户
质量。 ”

因此，对于其他语言(当前，我的情况是印度语，印度语)，我应该直接使用常规的PESQ方法还是必须对其进行修改？如果我必须进行修改，那么任何适用于某些印度语言(或英语以外的其他语言)的想法都将非常有帮助。

最佳答案

不知道您是否仍然需要建议，只需对您的问题发表一些评论:

STOI是一种用于预测(相当)嘈杂语音的可懂度的指标，而不是语音质量(通常在静默状态下评估)。该方法的基本主观测试是清晰度测试(要求获得公认的单词/音节/词义等)。即使可以免费下载源代码，也仅允许出于研究目的而非商业用途免费使用。该指标的范围相当有限，我的建议是完全不使用它。

PESQ(ITU-T P.862)已过时并在10年前被取代-不再使用!即使通过出售PESQ许可证来赚钱的公司也不推荐这种方法。顺便说一句，类似于STOI，PESQ的合法使用受到更多限制:引用代码只能用于测试例如平台相关的实现。为了学术和商业目的，必须购买许可证!从一开始，特别是大学，根本就没有注意到这一点。

由于PESQ的源代码可在ITU-T网站上找到，因此人们将它用于许多目的，而这些目的并非旨在(例如，声音路径或降噪算法)。如今，您使用PESQ获得的所有结果均无法使用，因为它们不能反射(reflect)当前行业中使用的最新技术。

语音质量预测的后继和最新方法是POLQA(ITU-T P.863)。它最近更新到版本3.0。适用与PESQ相同的许可方面；由于许多用户滥用了PESQ的(相当宽松的)源代码策略，因此引用实现不再可用，因此您必须购买有效的许可证。

关于语言依赖性:语音质量预测指标通常可能包含有关语言的固有偏差(但也可能涉及其他可能降级的权重)。通常，这源自此类模型的可用训练数据，这些数据可以从某些实验室以某些语言获得，并包含某些降级。因此，您提到的工作所观察到的变化并不罕见，尤其是对于未知/看不见的降级和语言。特别是对于标准化测试，绝对强烈建议不要以任何方式修改预测算法。考虑这种变化的典型方式是在预测的MOS之上应用某些语言或降级的映射函数，即将标准模型输出“转换”为“更好”的比例。

关于audio - 不同语言(非英语)的PESQ，STOI得分(语音质量)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60267864/

audio - 不同语言(非英语)的PESQ，STOI得分(语音质量)

上一篇：elasticsearch - Logstash-JSON解析列表

下一篇：elasticsearch - 在Kibana 4中显示多行