audio - 文件和麦克风录制之间的音频信号差异

我正在开发用于现场录音的语音情感识别系统。我正在使用OpenSMILE库进行特征提取。我收集了一组包含不同类型语音类型的音频文件，并从中提取了特征，并训练了基于SVM的情感识别器。但是，这在通过现场语音进行测试时完全失败。原因是实况语音中的信号以及特征分布(MFCC，LSP，音高，强度，F0)与文件中的信号完全不同。 OpenSMILE库使用portaudio访问来自麦克风的音频信号。

我尝试过无线播放文件(f_original)并通过麦克风录制它，然后让OpenSMILE保存它(f_distorted)。我发现在演奏时，f_original和f_distorted听起来与人耳并没有很大不同。但是，在audacity中可视化时，音频信号相差很大，并且从f_original和f_distorted中提取的特征也有很大差异。文件f_original的频率为16000Hz，在特征提取之前，我将其上采样到44100Hz。麦克风以44100Hz记录。

虽然我确实希望通过麦克风录音时会出现一些失真，但我看到的失真程度非常高。

还有其他人遇到过类似的问题吗？有关如何解决此问题的任何指示。

谢谢!

最佳答案

这将在很大程度上取决于录音的环境因素，包括房间，扬声器/麦克风组合的频率响应以及它们在录音室内的类型/位置。该软件可能可以帮助您清除此问题，但是获得清晰的记录将是影响软件性能分析能力的最重要因素。

假设您的录音电平设置正确，并且麦克风和扬声器的频率响应相对平坦，您仍将根据环境改变声音的频率曲线。

在播放时这种效果可能不会立即显现出来，但是声音的许多元素都会受到不利影响。 Composer 已使用此方法产生了很大的效果。

请参阅Alvin Lucier的“我坐在http://www.ubu.com/sound/lucier.html的房间里”，以获取此类构图的美丽示例。

您在该录音中听到的许多 transient 拖影效果会极大地影响语音配置文件，因此需要仔细考虑录音的设置。最好与音响工程师谈谈录音设置方面的技巧，因为这似乎是您似乎正在苦苦挣扎的部分。
例如您不会提及您正在使用的房间的声学特性或音频设置。

您还可以对要使用的房间/麦克风/扬声器设置进行冲激响应，然后将所记录的语音与冲激解卷积，这从理论上应将录制内容还原为原始信号的完美代表。这很棘手，但可以提供令人赞叹的效果。

关于audio - 文件和麦克风录制之间的音频信号差异，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15692365/

audio - 文件和麦克风录制之间的音频信号差异

上一篇：如果未找到进程名称，则 Powershell 将进程名称放入哈希表时出现问题

下一篇：elasticsearch - 有什么方法可以改善ElasticSearch上的索引编制？