Google已经将人工智能技术运用到了图像搜索和机器人对话等领域,甚至在围棋比赛上战翻了世界顶尖棋手。现在,该公司又将AI技术运用到了如何逼真地模仿人类语声上,包括用嘴和呼吸系统发出的“非演说”声音(non-speech sounds)。这套系统被叫做WaveNet,该神经网络可以生成语音波形元数据,并且惊人般地生动。
虽然我们早就有了非常实用的TTS(文本语音转换)系统,盲人等因此而颇为受益。但其通常先是录制一个人说各种各样的声音,然后生硬地衔接到一起(concatenative TTS)。
“参数式”文本语音转换(parametric TTS)则可通过语音编码器、合成分析和再现语音输入,但听起来还是太像机器(不够自然)。
相比之下,真人在说话的时候,会有很多更加零碎的声音/语气相助,而WaveNet则是一个可以更好地学习模仿真人说话的AI。
WaveNet能够对原始声波模式进行建模,每秒分析16000个样本,然后生成一个基于之前声音的预测模型,结果就是惊人的高仿真度——换言之,WaveNet已经能够“发出自己的声音”。
有关这项研究的更多内容,请移步至DeeMind博客(传送门)。
[编译自:Cnet]
[广告]活动入口:
未经允许不得转载:陈丹的博客 » 超越TTS:谷歌WaveNet人工智能可以讲得比真人还生动