您的位置:首页 >电信 >

Google的DeepMind在人工智能的语音生成方面取得了重大突破

Google的DeepMind公司创建了AlphaGO程序,该程序在中国古代围棋比赛中击败了人类世界冠军,现在已经在机器语音生成方面取得了突破。DeepMind的最新研究论文显示,他们的新系统WaveNet比现有技术 (包括Google自己当前的文本语音转换系统 (TTS)) 好50%。

根据博客文章,WaveNet是 “原始音频波形的深度生成模型”,并且可以生成复制 “人类声音” 的语音,这听起来比任何现有模型都要自然得多。帖子添加了相同的网络,甚至可以直接从机器本身创建原创音乐。

DeepMind被谷歌2014年收购,一直致力于人工智能、神经网络和改进机器学习。在过去的几年中,我们已经看到计算机在理解人类语音方面的进步。例如,我们现在可以与Google now语音助手进行交互,以直接请求使用自然口语的句子。

但是使用WaveNet,这个想法是从听起来更像 “人类” 的机器中生成语音。DeepMind的博客解释说,这种被称为 “语音合成或文本到语音 (TTS)” 的过程在很大程度上仍然依赖于数据库,其中 “从单个说话者记录简短的语音片段,然后重新组合以形成完整的话语。”这样做的挑战是无法修改声音。

WaveNet的想法是直接 “模拟音频信号的原始波形,一次一个样本”,以使其听起来更自然。DeepMind的博客文章概述了他们是如何创建这个系统的…… “输入序列是从人类扬声器记录的真实波形。经过培训,我们可以对网络进行采样以生成合成话语。”因此,该系统被教导可以自行生成语音。

DeepMind还指出,该系统比任何现有系统都要昂贵,但它有助于创建更自然的声音。

另请阅读: Google支持AlphaGo的重大胜利: AI如何破解中国古代游戏

在DeepMind对美国英语和普通话的测试中,WaveNet产生的语音听起来比任何早期的系统都要自然得多,包括Google自己的当前系统,该系统被认为是世界领先的系统。博客文章还说,WaveNet甚至可以产生呼吸和嘴巴运动,并识别不同声音的特征,包括男性和女性,这是当前系统无法做到的。

WaveNet面临的挑战是,目前它需要大量的计算能力。DeepMind的另一项重大成就是创造了AlphaGo,它能够在围棋比赛中击败人类世界冠军。对于计算机来说,GO的成功很难实现,因为游戏依赖于直觉,而这种直觉是无法轻易教给机器的。

相关推荐

猜你喜欢

特别关注