语音识别领域已经取得了许多重大进展,但是,距离机器人与人类真正的自由交流,却还有许多难题需要解决,其中的难题之一就是远场语音识别。
目前,计算机将语音转换为文字,仅限近讲的情况,一旦人与麦克风相距较远,有混响或噪声存在的情况下,语音识别率急剧降低,特别是有混响的情况,更对语音识别提出挑战,这与人有着极大的不同。也就是说在有适当混响的情况下,人会感觉声音饱满,听得更加清楚,而对于计算机,机器人,却恰恰相反。还有,众所周知的鸡尾酒效应中,我们人类是具有一种听力选择能力的,形象的描述就是在一个鸡尾酒会上,人可以将注意力集中在某一个人的谈话上,而忽略周围人的谈话及背景噪声。尽管周边的噪声很大,我们仍然可以听到我们感兴趣的说话内容。这种能力我们每个人都有,但要让机器也具有这种能力,却是非常困难的。
现有解决方案
近半个世纪以来,科学家一直在致力于解决这个难题。目前,解决机器听觉系统的鸡尾酒会效应主要有两个研究方向。
第一种是听觉场景分析,主要是基于音频特征及语言模型对混在一起的语音进行分离。例如:可以利用语音信号谐波特性、短时平稳特性、隐马尔科夫语言模型,实现将混在一起的谈话声分离。但是,这种方法的缺点之一是对语音进行了一些不合理的假设,如不同人的说话声在频谱上是不重叠的。而且除此之外,基于语言模型的估计方法运算量又很大,难以实用。
第二种是基于麦克风阵列的方法,利用麦克风阵列设计空间滤波器,实现对特定方向声源的提取,并抑制其他方向上语音,从而达到对不同位置的声音进行分离的目的,缺点是需要多个麦克风且计算复杂。
未来解决方案
显然,上述的现有两个解决方案都不能达到令我们满意的程度。然而,最近美国杜克大学的学者给我们带来了新的希望。
通过将声学材料及压缩感知技术结合发明的一种新型器件,不仅使得单个麦克风就可以实现对三个混合声源的分离,而且,其正确率可以达到96.67%。新器件与传统的信号处理方法不同,它是通过设计精妙的声学材料实现对不同方向的声源进行编码,且不需要对声源有任何先验知识或假设。
该新器件是由一个塑料圆盘构成,外形十分类似一个披萨。圆盘的中心放置一个麦克风,麦克风周围由36个扇形的通道组成,每个通道都是一个声波导,由许多蜂窝状的结构组成。每个通道都能够把经过它的声波进行调制,因此,整体结构类似于一个参数可调的均衡器。
圆盘的工作原理,与你对着一个装着水的瓶子说话时的情景很类似。由于声波振动的影响,瓶子内部的空气会发生共振,从而声音某些频率的能量会被衰减,而衰减的频率值由瓶内水的多少决定。圆盘的每个通道都类似于一个装着水的瓶子,通过精妙的设计每个通道中的蜂窝状晶格的高低大小就可以实现对声音不同频率的能量进行衰减,从而达到对声波编码的目的。
不过,由于新器件的尺寸较大,目前还难以在实际中获得很好的应用。但试想一下,一旦该器件可以小型化,它将取代目前通用的麦克风阵列技术。利用单个麦克风,且不需要进行复杂的计算就可以实现在嘈杂的环境下提取感兴趣的语音,这是一件多么美妙的事情。
|