我尝试编写一个可以测试用户发音的程序。
该程序将播放波形声音,说一个英语句子,然后用户将尝试发音并记录其声音,然后程序将检查该波形的相似性并指出用户的发音。
问题是,是否可以使用.net编写此程序?如果可以,我可以使用哪些库?有入门指南吗?
最佳答案
音乐识别程序通常在频谱域中表示声音(以捕获音高)。
根据某些频谱表示,可以使用距离度量(欧几里得或其他)。
对于语音,时间维度是必要的。
在空间域中,考虑时间变形(慢速与快速)的翘曲措施似乎也是一个不错的选择。
模板匹配算法可能像OCR算法一样都是不错的选择,但是现在您将要处理声波问题。
声波算法通常考虑的是滑动窗口或分段。
关于.net - 如何使用.net比较两个音轨的波形?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17732218/