您的位置:首页 >创业 >

微软新语音识别系统达到人类平价

在语音识别方面的一项重大突破中,微软的研究人员声称已经开发了第一种技术,可以像人类一样识别对话中的单词。微软人工智能和研究公司的一组研究人员和工程师创建了一个语音识别系统,该系统与专业转录学家相比产生相同或更少的错误。他们报告的单词错误率 (WER) 为5.9,低于团队上个月报告的6.3。5.9的错误率大约等于被要求转录相同对话的人的错误率,这是有史以来针对行业标准总机语音识别任务的最低记录。

“我们已经达到了人类的平等。这是一项历史性的成就,”该公司首席演讲科学家黄学东在一篇博客文章中说。

这一里程碑意味着,计算机第一次可以像人一样识别对话中的单词。这样一来,球队就实现了不到一年前设定的目标-也大大超出了其他所有人的期望。这项研究的里程碑是在对语音识别进行了数十年的研究之后进行的,该研究始于与负责技术突破的美国机构DARpA的20世纪70年代初。在过去的几十年中,大多数主要的技术公司和许多研究组织都参与了这项工作。

“这项成就是二十多年努力的结晶,” 管理演讲和对话研究小组的杰弗里·茨威格 (Geoffrey Zweig) 说。

这一里程碑将对消费者和商业产品产生广泛的影响,语音识别可以大大增强这些影响。其中包括Xbox等消费娱乐设备,可访问性工具 (例如即时语音到文本转录) 和个人数字助理 (例如Cortana)。

“这将使Cortana更加强大,使真正智能的助手成为可能,” Shum说。

研究里程碑并不意味着计算机可以完美地识别每个单词。实际上,人类也不会这样做。相反,这意味着错误率-或计算机听错诸如 “有” 表示 “是” 或 “一个” 表示 “该” 的单词的速率-与您听到相同对话的人所期望的相同。

Zweig将这一成就归功于在系统的各个方面系统地使用了最新的神经网络技术。推动研究人员超越顶部的是使用神经语言模型,在该模型中,单词表示为空间中的连续向量,而诸如 “快” 和 “快” 之类的单词紧密结合在一起。茨威格说: “这让模型从一个词到另一个词都能很好地概括。”

相关推荐

猜你喜欢

特别关注