助听器也能“看得见” 视觉信号未来将改变人类感知手段

　　听觉作为人类感知手段之一，一直是不少研究的重点领域。西交利物浦大学计算机科学和软件工程系的安德鲁亚伯博士和其团队设计了一个新系统，他们在助听器中加入了捕捉人说话时唇形特征的视觉信号，以提高助听器的使用效果。最新研究成果也在IEEE计算智能研讨会上进行发表。

　　“人们聊天的时候不仅仅是靠声音来交流的。”亚伯博士说，“人们还会相互观察面部表情、肢体语言，而且或多或少都会观察对方的唇部动作。”比如，当人们听到“ba”这个音节，但是看到的是“fa”这个音节的唇部动作，人们就会误以为自己听到的是“fa”甚至是“va”。“这被称为‘麦格克效应’。” 亚伯博士解释说，“大脑在同时接收到一个视觉信息和一个听觉信息的时候，有可能视觉信息会覆盖掉听觉信息并造成视听幻觉。”

　　这种现象充分展示了视觉信息在谈话中的重要性。因此亚伯博士一直在思考：如何才能开发出接收声音以外信息的机器？如何让这些机器像人类一样去“听”？

　　亚伯博士曾尝试把一个可穿戴的小型照相机连接到助听器上，让系统同时处理接收到的听觉和视觉信息。在这些视觉信息中，会影响系统处理结果的是唇部动作、嘴巴张开或闭合、宽度及深度等唇形特征。他说，在研究助听器的时候，首先信息传输必须要快，所以信息要尽可能简洁、高效，“设计的时候，我们希望尽可能使用最少量的唇形特征，并且希望信息的处理流程越快越好。我们目前研究的是一个被称为‘基于框架的对话预估’的系统。这个系统不是直接输出词汇，而是输出这样一个音频的预估。”

　　如果采集的视觉信号和音频信号之间有差别或者误差，如何进行筛选和分析？“在真实生活场景中，视觉信息和听觉信息可能会出现各种各样的差异。” 亚伯博士说，其中一种情况是无法获取相应的视觉信息，比如有人说着话但是脸朝着其他方向，或者是头发或手遮住了脸。“我们当前的系统对一些参数进行追踪，例如嘴唇的宽度、嘴巴张大程度以及嘴巴的位置。我们还在研究如何追踪这些数据，以便当人们在谈话当中短时间内脸朝向其他方向时，机器也可以应付得来。就音频信息而言，有一个大问题是噪声引起的失真。这种失真可能是由于人们的说话声音产生交叠，或者由于目标音频被背景噪声所掩盖。这时，很难提取出音频信号，人们对此已经进行了数十年的研究。在这种情况下，当音频信号不确定的时候，人们还可以用视觉信息进行补充。这样未来我们就可以将视觉特征与音频结合起来。”

　　“目前多数应用广泛的数据库都是英语的，而且很多前沿的研究都在欧盟和美国。”亚伯博士说，事实上他们正在进行基于中文的唇读研究，还将运用机器学习来测试其对中文谈话的辨识度有多高。“但我们最终并不能依赖于特定语言的唇读研究。试想一下，如果我的助听器只针对英语有效，那么我戴着它在中国就完全没有用。所以人们需要的是真正可以解读声音的机器，而不是过度地偏重于唇部动作读取。将视觉特征与音频相结合，这是一个很大的挑战，也是我们未来几年乐于研究的方向。”

　　亚伯博士希望能够将词语识别和预判对话结合，同时整合环境识别及其他视觉信息处理手段，有一天能创造出能够像人一样“思考”的改进型助听器。

　　记者王拓

听觉作为人类感知手段之一，一直是不少研究的重点领域。西交利物浦大学计算机科学和软件工程系的安德鲁亚伯博士和其团队设计了一个新系统，他们在助听器中加入了捕捉人说话时唇形特征的视觉信号，以提高助听器的使用效果。最新研究成果也在IEEE计算智能研讨会上进行发表。”亚伯博士解释说， “大脑在同时接收到一个视觉信息和一个听觉信息的时候，有可能视觉信息会覆盖掉听觉信息并造成视听幻觉。亚伯博士曾尝试把一个可穿戴的小型照相机连接到助听器上，让系统同时处理接收到的听觉和视觉信息。亚伯博士希望能够将词语识别和预判对话结合，同时整合环境识别及其他视觉信息处理手段，有一天能创造出能够像人一样“思考”的改进型助听器。

相关新闻