audio - 识别 "ding-dong"声音

我正在构建声音识别模型来检测“叮咚”声音。

有两个过程，训练和测试。

训练数据是设备生成的“叮咚”声音。

该模型可以检测同一设备产生的“叮咚”声音，效果很好。

但是，当第二个设备产生新的“叮咚”声音时，性能就会很差。

我知道这个问题的可能解决方案:记录第二个设备生成的“叮咚”声音并将其添加到训练数据中。

但是，总会有新的设备、新的“叮咚”声。

我应该做什么？

最佳答案

您面临过度拟合问题。过度拟合意味着您的模型已经过训练，可以在训练数据集的特定情况下以最佳方式工作。为了克服这个问题，您应该在许多设备上训练模型，然后在它们之间进行插值。您使用的模型可能会保证插值。

但是，之前的信息太笼统了。就您而言，您可能会找到更简单的方法来做到这一点。一切都取决于你如何定义“叮咚”。如果你能找到“叮咚”的标志，那就太好了。该签名对于所有不需要的功能应该是不变的。

例如，是否应该接受“Diiiiing-doooooong”？如果是，您应该找到一个与音频剪辑长度无关的签名。频率较高的“叮咚”可以接受吗？如果是，您应该找到一个签名，该签名将频率视为彼此的分数而不是绝对值等等......

顺便说一句，我相信您可以通过谷歌搜索并找到许多关于您的问题的论文，但它可能是关于“dang-dong”而不是“ding-dong”，但您仍然可以从中受益；)

关于audio - 识别 "ding-dong"声音，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34304993/

相关文章：

r - GBM Bernoulli 不返回 NaN 的结果