来源: 时间:2022-04-30 17:35:09
科学家开发了一种新软件,该软件使人们可以轻松地在计算机屏幕上更改单词,从而编辑人声的录音。美国普林斯顿大学研究人员开发的技术可能对音频记录的作用与文字处理软件对书面文字的作用一样。
名为VoCo的软件提供了一种简单的方法,可以通过编辑录音的笔录来在人声录音中添加或替换单词。即使新单词没有出现在录音的其他任何地方,它们也会自动合成说话者的声音。该系统使用复杂的算法来学习和重新创建特定声音的声音,有一天可以使编辑视频中的播客和旁白变得更加容易。该技术可以为创建听起来自然的个性化机器人声音提供起点。
普林斯顿大学计算机科学教授亚当·芬克尔斯坦 (Adam Finkelstein) 表示: “VoCo为编辑音轨提供了一种非常实用的技术,但它也是未来技术的预兆,这些技术将允许人类声音以非凡的方式被合成和自动化。”在计算机屏幕上,VoCo的用户界面看起来类似于其他音频编辑软件,例如流行的播客编辑程序Audacity或Apple的音乐编辑程序GarageBand。
它提供了音轨波形的可视化以及一组用于编辑的剪切,复制和粘贴工具。但是,与其他程序不同,VoCo还可以通过曲目的文字记录来增强波形,并允许用户仅通过键入笔录来替换或插入曲目中不存在的新单词。
当用户键入新单词时,VoCo会更新音轨,通过将旁白中其他地方的音频片段拼接在一起来自动合成新单词。芬克尔斯坦说: “目前,音频编辑可以剪出一段叙述的片段,并将剪辑从一个地方移到另一个地方。”Finkelstein说: “但是,如果你想添加一个在录音中不存在的单词,只有通过艰苦的反复试验来搜索可能很好地组合在一起的小音频片段,才有可能形成这个单词。”
他说: “VoCo可以使搜索和拼接过程自动化,并且产生的结果通常比音频专家手动创建的结果更好。” VoCo的核心是一种优化算法,该算法可以搜索语音记录并选择部分单词声音的最佳组合,称为 “音素”。在用户的声音中建立新的单词。
要做到这一点,它不仅需要找到inpidual音素,而且还需要找到它们的序列,这些序列缝合在一起而没有突然的过渡,并将它们放入现有的句子中,以便新单词无缝融合。单词的发音重点和语调取决于它们在句子中的位置,因此上下文很重要。
有关此上下文的线索,VoCo会寻找句子的音轨,该音轨会自动从文字笔录中以人造声音合成-听起来人耳听起来很机器人。此录音被用作构建新词的参考点。然后,VoCo将真实人声录音中的声音片段与合成音轨中的单词匹配-一种称为 “语音转换” 的技术,启发了项目名称VoCo。这一发现发表在《图形交易》杂志上。
相关推荐
猜你喜欢