您的位置:首页 >要闻 >

语音技术如何超越识别,理解意义和上下文

我一直希望技术能帮助我转录所有长时间的采访。尽管我已经使用Sound Note录制和注释音频剪辑了几年,但它使我养成了在面试中只记下关键字的习惯。这意味着有更多的转录盯着我。

我尝试了很多方法来找到合适的技术来帮助我解决这个问题,比如在谷歌文档或苹果笔记上打开带有口述选项的录音,看看它是否能帮我写下来。这些工作是零碎的,但从来没有永久的解决方案。即使语音识别技术越来越好,这似乎仍然是我仍然可以使用一些帮助的领域。

因此,在过去的几周里,当我发现两个利用最新技术帮助语音识别和转录的应用程序时,我感到非常惊喜。第一个是一个名为Tetra的应用程序,它可以让你转录电话。是的,你需要通过应用程序拨打电话,但它会给你一个短信,告诉你在通话后几分钟内发生了什么。另一位应用程序Otter指出,是由一位记者朋友建议的。此应用程序记录会议或其他对话,并转录所说的内容,并在此过程中理解和标记不同的声音。

<iframe src = "https://www.dailymotion.com/embed/video/ k1xJOVoNwzbLDeufNbz" width = "100%" height = "363"></iframe>

当然,这两个应用程序都不是完美的。但是他们可以完成大约80% 的工作,这已经足够了。目前,在此过程中您的internet连接的稳定性,记录过程中的环境噪声量似乎都在转录的准确性中起作用。无论如何,对我来说,这是一个明显的迹象,表明人工智能实际上可以帮助更有效地完成工作。

本周,我还碰巧看到了美国娱乐技术公司TiVo最新产品的演示。TiVo的国际营销高级总监Charles Dawes向我展示了他们的盒子现在如何理解声音。但这不再仅仅是识别语音和执行命令。该公司正在向印度的合作伙伴推销的TiVo的Experience 4软件可以理解命令的含义和上下文。例如,使用正确的元数据以及由人工智能支持的机器学习,the box了解到,当我说汤姆·克鲁斯 (Tom Cruise) 时,它正在所有来源中寻找与恒星相关的内容。

然后,当我说妮可·基德曼 (Nicole Kidman) 时,它开始寻找两个明星都有特色的内容,而不是只转向基德曼电影。即使在印度Alexa的工作方式中,现在也可以看到许多类似的上下文设置,因为我们有不同的英语表达方式。幸运的是,在TiVo演示后的几分钟,我遇到了Nuance Communications inc. 的Carrie Lazorchak和Jason Stirling。Nuance多年来一直处于语音和自然语言理解技术的最前沿。

斯特林强调了语音技术在印度这样的国家的影响,由于文盲和英语覆盖范围有限,这种媒介使人们可以更多地使用数百万新的技术,例如智能手机。“语言建模是一种日常游戏。我们得到的越多,我们得到的就越好。”斯特林解释说,并补充说,如果我们将含义提取与自然语言处理一起应用,整个系统的性能将提高许多等级。Lazorchak的筹码在于,像印度这样的国家带来的挑战是当地伙伴关系至关重要的原因。

“在真正了解文化的本地企业的支持下,我们的技术表现最佳。”她坚信,区域语言将是一个巨大的使用空间,尤其是在印度市场的采用率更高。“这将为这个领域带来大量服务,特别是在农村地区。”我认为语音技术终于跨越了可以开始真正影响我们生活的领域,使我的工作变得更轻松,更高效。我们还没有确切听到最后一个。

相关推荐

猜你喜欢

特别关注