中国江苏网>江苏 > 惠享民生 > 正文

0

评测语音输入谁能听懂我说话?

来源:现代快报   2017-05-16 07:03:00

  手里拎着东西,又要给朋友回短信,这可怎么办?现在,手机输入法都推出了语音识别功能,比如搜狗输入法、百度输入法、讯飞输入法和iPhone输入法,它们的正确率如何呢?现代快报记者进行了一番评测,告诉你哪个最好用。

  见习记者 申阳 现代快报/ZAKER南京记者 蔡梦莹 王益 宋敏慧

  搜狗 百度 讯飞 iPhone

  评测语音输入

  评果评测

  本次评测选取了8段语音,包括普通话、方言、古诗文、绕口令、超快语速和英文,看四大输入法能否全部“听懂”并“写对”。

  1.普通话

  节选自现代快报《夜读》栏目5月14日的《愿你慢慢长大》,全文178个字,由快报当红主播韩飞周游朗读。

  其中,文字正确率最高的是搜狗输入法,达到99.22%。紧随其后的是讯飞输入法,正确率有98.27%。垫底的是iPhone输入法。

  断句正确率最高的是搜狗输入法,正确率为60%。

  2.南京话

  材料同上,由南京籍记者用南京话朗读。朗读中,没有替换词语。

  文字正确率最高的是讯飞输入法,达到91%,第二是搜狗。iPhone仍旧排最后,正确率只有29.77%,很多字无法识别,最后竟然自动关闭了。

  比较有趣的是,讯飞输入法有南京话模式,在该模式下,正确率达96.07%。

  断句上,最高的是讯飞输入法,达到75%。

  3.山西话

  材料同上,由山西晋中籍编辑用当地方言朗读。

  文字正确率最高的是百度,达到28.48%,其他三个也都没有及格。搜狗输入法更是牛头不对马嘴,甚至出现了英文。不过,讯飞输入法有山西话模式,在该模式下,正确率达66%。

  此外,只有讯飞和百度有断句,百度的正确率达到40%。

  4.粤语

  粤语日常对话,总共55个字。

  同样在粤语模式下,文字正确率最高的是讯飞,达到100%。第二是搜狗,为80%,第三是百度,为66.67%。iPhone输入法没有粤语模式,一个字都对不上。

  测评的粤语是生活中的一些短对话,搜狗断句的正确率能够达到50%,非常不错。

  5.超快语速

  材料使用的是“中国好舌头”华少的口播录音,语速较快,共有220个字。

  在这次考验中,四个输入法表现都不好,正确率最高的搜狗也只有15%,剩下三个几乎交的“白卷”。

  6.绕口令

  经典绕口令《刘奶奶买牛奶》,全文116个字,由播音主持专业的记者沈冰青朗读。

  这一次得分最高的是百度输入法,文字正确率有97.41%,紧随其后的是讯飞和搜狗,iPhone输入法只有56.9%。

  7.古文

  使用的是《岳阳楼记》前两段,同样由沈冰青朗读,共151个字。

  文字正确率排名依次为搜狗、讯飞、百度和iPhone输入法,前三者不分上下,都在94%以上,只有iPhone输入法未达到60%。

  断句中,搜狗输入法的正确率高达88.89%,语音识别古文本身就有一定难度,断句正确率达到80%以上,古文的识别真的非常厉害。

  8.英语

  节选自英文小说《小王子》,两段共有66个英文单词,也是由沈冰青现场朗读。

  表现最好的是搜狗和讯飞。这两个输入法都有英文模式,正确率咬得很近,都靠近90%。百度输入法无法识别英文,直接罢工。

  断句正确率最高的是搜狗输入法,高达88.89%。英文的断句还是比较难的,评测用的是《小王子》的选段,断句是需要考虑一些语境的,讯飞输入法的断句正确率也有55.56%。

  语音识别 夜读 夜读 夜读 绕口令 古文 英语 粤语 语速快 附加

  正确率 (普通话版) (南京话版) (山西话版)

  iPhone输入法 75.29% 29.77% 11.80% 56.90% 57.62% 75.76% 0.00% 0.00%

  语音识别

  讯飞输入法 98.27% 91.01% 22.42% 92.24% 96.67% 89.39% 100.00% 0.00% 南京话模式

  粤语模式 96.07%

  山西话模式

  66.00%

  搜狗输入法 99.22% 88.60% 0.00% 90.99% 97.30% 90.91% 80.00% 15.00%

  粤语模式

  百度输入法 94.24% 76.97% 28.48% 97.41% 94.44% 0.00% 66.67% 1.51%

  粤语模式

  断句正确率 夜读 夜读 夜读 绕口令 古文 英语 粤语 语速快 附加

  (普通话版) (南京话版) (山西话版)

  iPhone输入法 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

  语音识别

  讯飞输入法 56.25% 75.00% 12.50% 85.71% 48.00% 55.56% 12.50% 0.00% 南京话模式

  粤语模式 62.50%

  山西话模式

  62.50%

  搜狗输入法 60.00% 60.00% 0.00% 85.71% 88.89% 88.89% 50.00% 14.29%

  粤语模式

  百度输入法 40.00% 60.00% 40.00% 0.00% 16.00% 0.00% 0.00% 0.00%

  粤语模式

  使用总结

  搜狗

  百度

  讯飞

  iPhone

  每次录入时长只有30秒,之后需要手动再次重启。另外,每次启动时,无法瞬间进入工作状态,导致最初的文字无法录入。这两点都在很大程度上限制了录入的自由度和完整度。

  启动速度快,按键按下后1秒内就可以识别工作。普通话识别率较好,但方言和外语方面较差。句子之间停顿稍短一些,软件就不能够断句。

  启动反应速度最快,只要一按开始键,立刻就会将声音录入。而且有南京话、山西话、闽南话等方言的语音输入,正确率也较高。但断句正确率较低。

  没有断句功能,识别后的文字都是成篇在一起,中间没有任何标点。识别时,如果系统无法识别,iPhone就会选择不录入任何一个字,而且不能识别录音的文字,不管是视频还是音频,完全没有反应。

  注:以上结果仅针对本次评测。

  专家解释

  语音是如何转化成文字的?

  东南大学信息科学与工程学院教授赵力告诉记者,语音识别系统实际上依据了两个模型,以声学模型为主,语言模型为辅。

  当我们说话时,每个单字的发音都是由音素组成的。于是,科学家将汉语的发音分成36个元音和22个辅音,从而组成由58个音素组成的识别模型,专业上叫做隐马尔可夫模型。当语音识别系统工作时,会将每个单字分解成一个个音素,然后和这58个小单元进行比对,再组成一串由音素组成的字符串,最后根据模型翻译成一句话。

  而语言模型实际上起到一个辅助作用。“比如我说‘大学’, 后面可能跟‘生’,组成一个单词。”赵力解释说。这一模型缩减了比对的范围,从而提高识别的精准度。

  语音识别目前多用于日常对话

  目前,各大公司开发的语音识别引擎基本都是基于隐马尔可夫模型进行研发的。只不过,有的在模型制作更加仔细。赵力告诉记者,比如有的在方言、声调等方面考虑得更加全面。

  南京某APP产品技术经理郝天翔介绍,相比于人眼识别、指纹识别,语音识别难度大、精准度低。目前,语音识别在安静低噪声的环境下,准确率非常高,运用较为广泛,“比如在微信语音转文字这类的日常会话、手机导航等应用中发挥比较大的作用。”

  今后,语音识别领域的研究往两个方向发展,一是基于情感的语言处理,现在语音识别已经能做到能听懂,但并不能识别说话人的情感,怎样在语音识别中理解情感,这是以后一大发展方向;二是语音会话系统,就是不仅能识别语音,理解说话人的意思,还能就相关话题聊起来。

标签:

责任编辑:李旸