语音合成帮你秒变“歌唱家” 江苏技术成就“爆款”

　　嘿！科技

　　互联网技术正悄无声息地改变着我们，就像一种“新重力”，它无处不在又让人习以为常……语音识别早已不是难事，而更为生动的“语音合成”技术，则将成为人工智能下一阶段的关键“赛点”。

　　日前央视《经典咏流传》第二季，因为一个技术“爆款”而频频问鼎各路社交“热搜榜”。这是一个“读诗成曲”的在线互动小工具，仅仅打开一个H5，扫扫二维码，朗诵一段诗词，就可以听到自己声音演唱的歌曲。这并不是什么“神仙”魔法，恰是目前人工智能领域大热的“语音合成”技术。

　　30秒——模仿你的声音，合成“殿堂级”曼妙歌声

　　“学”唱一首歌需要多久？一天，5小时，还是1小时？央视八点档节目《经典咏流传》现场“开练”，只要30秒，就可以为你呈现一首原声歌曲。电视这头是当红“小生”王源演唱的《长歌行》，电视另一头，则是14万观众响应“邀请”，共同感受、见证这场AI“语音合成”的技术变革。据统计，节目播出的90分钟内，共有10万多名网友转发这一充满互动趣味的H5小游戏。

　　记者扫码进入H5界面，尝鲜开启“读诗成曲”游戏玩法的探索模式。首先，需要戳选自己的音色，男声、女声或者童声，随后，页面跳转到一个经典诗词曲库，可以选择自己喜欢的歌曲。紧接着，“见证奇迹”的30秒就来了，你对着话筒大声朗读所选曲目的歌词（也是诗词），上传后稍等几秒，你朗读的诗词就会被自动转换成由宫商角徵羽组成的旋律。“人有悲欢离合，月有阴晴圆缺，此事古难全，但愿人长久，千里共婵娟……”一首你未曾哼唱过一个音调的歌曲，就在你朗诵之后，完全以你的原声，毫无破音、也不走调的，惊艳呈现，不禁令人大呼神奇。“人工智能识别我的声音，如今居然还能快速模仿我的声音，这很‘硬核’。”扫码尝试的网友惊喜地留言表示，合成歌曲后立刻转发朋友圈，“炫耀”了一番，没想到这一次“新技术”以这样有趣、日常的方式，走进大众视野。

　　除了能够模仿用户声音，它还能融入大牌歌手的“花式”唱腔，最终合成的歌声彷佛加了声音“滤镜”，例如谭维维的《墨梅》《山高路远》音域宽广、唱腔独特，很多观众虽然喜欢但没法模仿。在“读诗成曲”的小游戏里，利用特别的个性化声音识别技术，能让你在保留自己原声的同时融进“谭式”唱法，更大程度地满足你的“歌唱梦”。

　　“传统文化携手人工智能，让曲高和众成为可能。通过亿万个小屏，人人都可以传唱诗词传播经典。”央视该节目相关负责人谈到，当传承数千年的中国诗词文化，遇见最前沿的AI语音技术， “读诗成曲”这样接地气的重温经典、传承文化的方式，势必令古诗词焕发新的韵味。

　　背后技术来自江苏——读懂你的“声音DNA”

　　鲜为人知的是，“读诗成曲”的技术支撑是一家来自江苏的企业——思必驰。“这个小游戏，主要应用的是语音技术，尤其是个性化歌声合成技术。”思必驰副总裁兼北京研发院院长初敏告诉记者，从一段用户读出的语音到形成个性化的歌曲，从技术角度来说，分为2大处理阶段，即语音识别与语音合成，后者又再细分为两部分，即声学模型加持、韵律模型调节韵律参数。

　　所谓声学模型加持，说通俗了就是，收集你的声音数据，形成训练模型，再通过个性化学习后，让生成歌曲的音色像你本人。韵律模型调节韵律参数，则是控制每个音的长短、高低，让旋律对上音拍，自然流畅起来。随后，只要将韵律参数和频谱参数结合，生成歌声，一段你的音色演绎的、旋律似原唱的片段就合成好了。整个流程下来，1～2秒即可合成成功，初敏表示，这一系统，至少支持10万人同时点击使用，并秒出结果。

　　在大众看来颇为新奇的“语音合成”技术，其实早已是业界暗涌争夺的“新滩地”。早在2016年谷歌就通过在加拿大蒙特利尔大学建立的人工智能实验室，试水“语音合成”技术，去年，这一项目取得突破性进展——能够在1分钟内模仿任何声音，和普通声音合成软件相比，它能够分析出每个人说话的独特语调。之所以能产生高还原度的合成声音，谷歌依靠的是神经网络和机器学习技术，神经网络模拟电信号在人脑神经元之间的传递过程，对输入数据进行处理。它利用分层的神经元，从大量样本数据中总结出共同特征。

　　“不同的声音中包含了很多信息。”神经网络能够从声音样本中抓取关键特征，如音色、音调、音节、停顿等等，而这些关键特征足够定义一个人的声音，这跟人们根据声音判断说话者是一个道理。谷歌该项目的创始人亚历山大布雷比松把这些关键特征比作声音的DNA，“在学习了很多不同讲话者的声音后，学习一个全新的陌生声音就会快很多，一分钟就足够捕捉声音的DNA中的大部分信息了。”

　　合成语音会变成“通关指纹”闯入“禁区”吗？

　　无论技术变革把生活包装的如何花团锦簇、摇曳多姿，我们都不能忽略技术漏洞带来的隐患。语音合成技术的漏洞显而易见，但不在于技术本身，而在于使用它的人。

　　“目前，法庭上还将录音作为一项重要的证据，在语音合成技术快速发展的未来几年，司法部门恐怕应该重新判定‘录音’这一证据的有效性。”业界不少观点认为，随着语音合成技术的发展，声音的“安全性”应被高度重视。一旦，机器拥有自然、逼真，有情感、高表现力的声音时，它会像个“通关指纹”，肆无忌惮地闯入从前人们原本设定好的“禁区”。

　　不过，因噎废食并不是个理智的态度，除了技术变革的不可逆之外，我们也必须看到语音合成在娱乐之外，贴近人性、务实有为的魅力。在去年重阳节，搜狗联合人民网发布了一则公益短片——罹患阿尔茨海默症的老人在老伴故去后独自生活，但是老伴的声音通过搜狗语音合成技术得到了重现，一直陪伴在老人的身边。温暖人性是“硬核”技术永恒的内涵、不变的发展方向。将可视的蒙古文转化为声音，让机器可以像人一样开口说蒙古语。能达到自然人发音水准的蒙古语语音合成系统，去年年底在内蒙古自治区呼和浩特市问世，该成果填补了我国蒙古语语音合成系统的空白。

　　如今，越来越多的语音识别技术开始融入到人们的工作生活中，在一些领域语音识别已经凸显出优势。当然，目前语音合成技术仍然需要在数据、经验、用户反馈共同作用下进行提升，此外，语音合成的数据安全，以及破译、分辨机器、人声的新技术也应该伴随着语音“浪潮”共生共长。生活因技术变革而精彩，却又不为其利刃所伤。

　　记者王梦然

嘿！科技互联网技术正悄无声息地改变着我们，就像一种“新重力”，它无处不在又让人习以为常……语音识别早已不是难事，而更为生动的“语音合成”技术，则将成为人工智能下一阶段的关键“赛点”。日前央视《经典咏流传》第二季，因为一个技术“爆款”而频频问鼎各路社交“热搜榜”。这是一个“读诗成曲”的在线互动小工具，仅仅打开一个H5，扫扫二维码，朗诵一段诗词，就可以听到自己声音演唱的歌曲。

相关新闻