audio - 谷歌音频集中使用什么算法进行音频特征提取?

标签 audio machine-learning sound-recognition

我正在开始使用 Google 的 Audioset 。虽然数据集很广泛,但我发现有关音频特征提取的信息非常模糊。该网站提到

128-dimensional audio features extracted at 1Hz. The audio features were extracted using a VGG-inspired acoustic model described in Hershey et. al., trained on a preliminary version of YouTube-8M. The features were PCA-ed and quantized to be compatible with the audio features provided with YouTube-8M. They are stored as TensorFlow Record files.

paper内中,作者讨论了在 960 ms block 上使用梅尔频谱图来获得 96x64 表示。我不清楚他们如何获得 Audioset 中使用的 1x128 格式表示。有谁知道更多吗?

最佳答案

他们使用96*64数据作为修改后的VGG网络的输入。VGG的最后一层是FC- 128,所以它的输出将是1*128,这就是原因。

VGG的架构可以在这里找到:https://github.com/tensorflow/models/blob/master/research/audioset/vggish_slim.py

关于audio - 谷歌音频集中使用什么算法进行音频特征提取?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44080007/

相关文章:

python - 压缩音频数据的快速方法?

Jquery更改音频的src并在keydown上播放

python - 套接字 block /缓冲区大小

machine-learning - MCTS 如何与 'precise lines' 配合使用

c# - 如何获得默认音频设备?

algorithm - 梯度下降算法在matlab中给出错误答案

opencv - 使用 Haar Cascade 的正负图像的大小

c# - 如何从 wav 文件中检索帧编号和帧大小

android - 波斯语语音到android中的文本