<分区>
为什么语音识别这么难?涉及哪些具体挑战?我读过 question on speech recognition ,它确实部分回答了我的一些问题,但答案主要是轶事而非技术。它也仍然没有真正回答为什么我们仍然不能仅仅投入更多硬件来解决这个问题。
我见过使用神经网络和环境 FFT 分析执行自动降噪的工具,并取得了出色的结果,所以我看不出我们仍在与噪音作斗争的原因,除非在困难的情况下,例如可笑的大声背景噪音或多个语音源。
除此之外,这不就是使用非常庞大、复杂、训练有素的神经网络来进行处理,然后将硬件投入其中以使其足够快地工作吗?
我知道浓重的口音是个问题,而且我们都有自己的口语化,但当一个人以缓慢而清晰的美国或英国口音说话时,这些识别引擎仍然会犯基本的错误。
那么,这是怎么回事?是什么技术问题让计算机仍然难以理解我?