所以我试图以此方式将一些音频映射到图像(频谱图)中:
*获取光谱数据(512个样本)。
*使png 512 * 512 =>第i行的像素值,col j =采样j的频率j的幅度(创建图像大约需要10秒)
[频谱数据的512个样本=> 43 Hz /样本]
但结果不是很好(我上传了其中的一项:)。
我的目标是为这些图像提供卷积神经网络,但根据我的技术,我产生了56%的精度,这一点都不好:(
请问一些建议?
最佳答案
这看起来像频谱图一样糟糕。一个建议是将x(频率)和幅度(颜色)都切换为对数刻度,它与我们的感知更好地匹配,但是我不确定它对神经网络是否有任何影响
关于c# - 如何从音频文件中获取频谱图?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54061803/