ios - 测量两个短音频相似度的最简单算法

标签 ios audio pattern-matching voice-recognition

问题是寻找任何开源或简单的实现来衡量 iOS 应用程序上两个音频之间的相似程度。

简单来说,音频可以用一维向量表示,计算一维向量之间的距离。但是音频长度会有所不同,因此需要一些预处理等。

期待在这里得到一些线索,谢谢

最佳答案

两个变长序列之间的相似度可以用DTW高效计算:

http://en.wikipedia.org/wiki/Dynamic_time_warping

这个算法很容易自己实现,并且在 wiki 页面上链接了很多现有的实现。

Simply speaking, audio can represented by 1-D vector,

在帧上拆分音频并将其转换为特征的二维向量是合理的,对于每个帧,您都有一个对应于不同频带的值(特征)数组。如果你想处理音乐,每一帧的 FFT 是个好主意,对于语音,最好计算 mel-frequency cepstrum

同样,您可以使用许多现有库来实现梅尔频率特征,其中之一是语音识别工具包 CMUSphinx

关于ios - 测量两个短音频相似度的最简单算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15653466/

相关文章:

ios - Vuforia-iOS-如何从 UIImage 动态创建/添加图像目标

javascript - 在 JavaScript 中并行播放相同的 HTML5 音频

scala - scala 中模式匹配列表的语法解释

python-3.x - 模式识别和序列检测

haskell - 是否使用以 "_"(下划线)开头的模式名称来记录/鼓励/便携的忽略结果?

iphone - 使用 Gdata 获取有关视频的统计信息

objective-c - 使用 Objective-C 的 for 循环在屏幕上显示按钮

ios - 在 iOS 上播放 .m3u8 文件

java - 使用纯Java播放MP3文件

algorithm - RTP包计算损失