微软推TTS系统 有声书成主要场景
微软推TTS系统 有声书成主要场景
马秀岚,张靖超
2018年10月,微软发布了基于深度神经网络的文本到语音(text-to-speech,以下简称“TTS”)分析运行系统。
该技术发布一年,在一些场景进行了落地,其中帮助视障人群成为非常关键的应用场景。
在过去,微软和盲人公益组织红丹丹视障文化服务中心(以下简称“红丹丹”)进行了合作,红丹丹将目前盲人群体所缺乏的资源书籍(百科知识,文学类,教材等)挑选出,微软通过神经网络合成语音“晓晓”来合成有声书。
10月15日是国际盲人节,上述合成的有声书在这天上传至心目图书馆——一个云端的图书馆——可以接触到全国105所盲校的学生。
在此之前的10月9日,微软亚洲互联网工程院人工智能语音组资深产品总监丁秉公在接受《中国经营报》在内的媒体记者采访时介绍称,这样的书原本需要人来录音,要找到录音的人和录音棚,耗时耗力,如果要录高质量的声音需要花费更多的成本和时间。但是如果通过TTS合成方式,可以7乘24小时合成,只要有文本内容,就可以源源不断地输出有声内容。“这打破了有声内容生产的壁垒。这个对视障人士群体来说特别有意义,虽然他们可以在市面上听到一些有声书,但是数量远远少于文本数量,如果我们可以自动地把文本转化成有声,可以极大地丰富视障朋友有声阅读的来源。”
成本更低
在具体的成本上,据微软方面介绍,一本100页左右的纸质书籍,译成盲文书籍需要400~500页,制作成本在80~100元左右,成本相对较高。而通过TTS合成的有声书,TEK-081平均一本的价格在9000元左右。但一本有声书做出来之后进行云端传输,覆盖到全国的盲校1万多个学生,可能一本书成本平摊下来才不到1元钱,且可以做到无限量广域传播。
市面上充斥着各式各样的有声书,该项目合成的有声书相比前者有什么区别?
对此,红丹丹执行主任曾鑫对记者解释,这些有声书根据盲校孩子和老师的需求来做,不是市面上已有的名著或者通俗小说类,而更多聚焦在目前市面上缺少的针对视障学生学习类或者成长类的有声书籍。“这种书在市场上很难找到有声版甚至是电子版,所以这方面很有需求。另外,我们也会根据青年人的学习需求,制作法律,公务员的考试教材等。市面上很难买到这类有声教材,我们会通过这样的技术手段帮学生以最快速度完成转换,形成有声书。”曾鑫说道。
据微软人工智能女声晓晓语音产品负责人刘越颖介绍,该技术目前可以提供两种场景下的服务:一种是实时的合成,基本上是毫秒量级的,几百毫秒就能够反馈,一般用在智能对话,语音助理等场景。另一种是非实时的合成场景,比如一整本有声书的长文本合成,大概需要总音频时长的1/3。一个小时的音频,可能十几分钟二十分钟就能合成出来,如果是人工录音,可能录制一个小时的音频,反复出错,需要不断地去录和重复,三个小时才能录出来一个小时的音频成品,而机器十几分钟就可以,这就将人力三个小时的录音节省到十几分钟,效率大大提升。
曾鑫也进行了补充:“做有声书的成本上,我们作为一个公益机构,可能不像商业机构。需要动用一些志愿者的资源来做,一本有声书的录制,对于我们而言最快的速度也需要花三个月才能完成。时间成本会很长,还包括人员的协调成本,现在用的这个技术大概几十秒钟或几分钟就能完成一本有声书的制作,这个成本肯定是没法比的。”
声音力图更自然
微软语音,自然语言与机器翻译的技术负责人黄学东曾在其文章中指出,TTS系统使用了深度神经网络,来克服传统“文本到语音”系统在匹配口语的重读和语调(称为韵律结构),以及将语音单元合成为计算机音频方面的局限性。这使得声音更加自然。
这些有声书的语音来自微软的声音品牌“晓晓”,据丁秉公介绍,晓晓是第一个基于深度神经网络做的声音。他表示,微软平台上的声音品牌很多,最初合成的声音听起来非常不自然,一听就知道它是机器人,TEK-081长时间听容易导致疲惫,经过几年发展,晓晓的声音被研发出来,达到相对自然的程度。
10月15日,记者在“心目图书馆”小程序中试听了上述利用晓晓的声音合成的有声书《德国少年儿童百科知识全书——啮齿动物》这一本的开头部分,发现声音相对一般的机器人声音自然,但在一些断句,停顿上仍然需要提升。
黄学东也指出,传统的“文本到语音”系统将韵律结构分解成由独立模型控制的语言分析和声学预测步骤。这将导致合成音频变得沉闷无趣。而“文本到语音”系统可以同时执行韵律预测和声音合成,其结果更加流畅自然。
“读文章时有自然的换气和停顿,韵律自然,听起来不会累。”在采访现场,微软语音团队播放了几段晓晓合成的有声书,刘越颖如此介绍道。
微软希望通过技术让有声书快速生成,通过技术做不同声音和不同风格以匹配更多书籍的类型。丁秉公向记者透露,目前该系统支持新闻,情感故事,声音助理,客服等场景,不同场景下的声音力图做到自然。
此外,丁秉公还表示,从去年11月到今年,微软对该项技术进行不断改进,调优性能,提高计算力,从非实时转化声音到变为实时,立足细节打磨声音质量,下了很大功夫。“去年我们推出这个声音时,声音很好听,但细节还有很多提升的潜力,比如当时语音说双语不够好,如今已经很自然了。我们正在逐渐地拔高声音的效果。”