audio - 识别 "ding-dong"声音

标签 audio machine-learning pattern-recognition audio-processing

我正在构建声音识别模型来检测“叮咚”声音。

有两个过程,训练和测试。

训练数据是设备生成的“叮咚”声音。

该模型可以检测同一设备产生的“叮咚”声音,效果很好。

但是,当第二个设备产生新的“叮咚”声音时,性能就会很差。

我知道这个问题的可能解决方案:记录第二个设备生成的“叮咚”声音并将其添加到训练数据中。

但是,总会有新的设备、新的“叮咚”声。

我应该做什么?

最佳答案

您面临过度拟合问题。过度拟合意味着您的模型已经过训练,可以在训练数据集的特定情况下以最佳方式工作。为了克服这个问题,您应该在许多设备上训练模型,然后在它们之间进行插值。您使用的模型可能会保证插值。

但是,之前的信息太笼统了。就您而言,您可能会找到更简单的方法来做到这一点。一切都取决于你如何定义“叮咚”。如果你能找到“叮咚”的标志,那就太好了。该签名对于所有不需要的功能应该是不变的。

例如,是否应该接受“Diiiiing-doooooong”?如果是,您应该找到一个与音频剪辑长度无关的签名。频率较高的“叮咚”可以接受吗?如果是,您应该找到一个签名,该签名将频率视为彼此的分数而不是绝对值等等......

顺便说一句,我相信您可以通过谷歌搜索并找到许多关于您的问题的论文,但它可能是关于“dang-dong”而不是“ding-dong”,但您仍然可以从中受益;)

关于audio - 识别 "ding-dong"声音,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34304993/

相关文章:

r - GBM Bernoulli 不返回 NaN 的结果

python - Tensorflow 中的 Dice/Jaccard 系数优化

javascript - 在 JavaScript 中使用正则表达式来检查模式重用(例如,在字符串中声明两次的相同字符序列)

audio - 吉他和弦识别算法?

iphone - 关闭模态视图 Controller 会导致音乐停止

python - TensorFlow 动态 RNN 未训练

python - 如何在 Python 中使用 MLE 估计高斯分布参数

python - 使用 LSTM 进行时间序列模式识别(python)

java - 如何获得一定频率的音频信号幅度的实时android

android - 通过音频 channel 进行数据通信