您的位置:首页 >原创 >

谷歌开发了类似人类的文本到语音的AI系统,Tacotron 2

在迈向 “AI优先” 梦想的重要一步中,Google开发了一种文本到语音的人工智能 (AI) 系统,该系统将使您与类似人类的发音混淆。科技新闻网站Inc.com报道,这家科技巨头的文本语音转换系统名为 “tacotron 2”,可提供AI生成的计算机语音,几乎与人类的声音相匹配。

在Google I/O 2017开发者大会上,该公司印度裔首席执行官Sundar pichai宣布,这家互联网巨头正在将其重点从移动优先转移到 “ai优先”,并推出了多种产品和功能,包括Google Lens,Gmail的Smart Reply和iphone的Google Assistant。

根据arXiv.org上发表的一篇论文,该系统首先创建文本的频谱图,这是语音应如何发声的视觉表示。该图像是通过Google现有的WaveNet算法进行的,该算法使用该图像,使AI比以往任何时候都更接近于模仿人类语音。该算法可以轻松学习不同的声音,甚至产生人工呼吸。

引用研究人员的话说: “我们的模型达到了4.53的平均意见得分 (MOS),与专业记录语音的MOS 4.58相当。”根据其音频样本,Google声称 “tacotron 2” 可以从上下文中检测到名词 “desert” 和动词 “desert” 之间的差异,以及名词 “present” 和动词 “present”,并相应地更改其发音。

该公司在论文中表示,它可以将重点放在大写单词上,并在提出问题而不是发表声明时应用适当的拐点。同时,谷歌的工程师没有透露太多信息,但他们给开发人员留下了一条大线索,让他们弄清楚他们在开发这个系统方面取得了多大进展。根据该报告,每个 “.Wav” 文件样本都有一个文件名,其中包含术语 “gen” 或 “gt”。

根据本文,“gen” 很可能表示Tacotron 2生成的语音,而 “gt' 是真实的人类语音。(“GT” 可能代表 “地面真相”,一个机器学习术语,基本上意味着 “真正的交易”。)

相关推荐

猜你喜欢

特别关注