您的位置:首页 >访谈 >

Google为印度语言添加了 “神经机器翻译”: 这就是它的意思

谷歌刚刚宣布了印度语言翻译现在将如何工作的一大步。它的神经机器翻译 (NMT) 正在印度推出九种语言; 印地语,孟加拉语,马拉地语,泰米尔语,泰卢固语,古吉拉特语,旁遮普语,马拉雅拉姆语和卡纳达语。这种新的翻译系统还将为自动翻译在Google Chrome上的工作方式以及Google Maps上的评论功能提供动力。

在机器学习和人工智能方面,Google被公认为无可争议的领导者,而语言位是这项更大努力的一部分。那么,NMT对网络上的印度语言到底意味着什么,为什么这种新的翻译系统很重要?我们在下面解释。

神经机器翻译到底是什么?

简单来说,谷歌的神经机器翻译是依靠深度学习神经网络来进行翻译的。这是一个多语言模型,系统被教导在一对以上的语言之间进行翻译。

Google 2015年使用自己的TensorFlow机器学习库启动了该项目,以了解如何改善计算机的翻译。TensorFlow是Google的机器学习开源库。

正如谷歌的研究工程师梅尔文·约翰逊 (Melvin Johnson) 向媒体解释的那样,神经网络是以人脑为模型的。就像人脑对外部刺激做出反应一样,这些深度学习神经网络被教导对某些输入做出反应。

在神经机器翻译 (NMT) 网络的情况下,这些系统将被教授语言,并且是 “端到端系统”。该系统是从要翻译的语言中输入句子。例如,对于印地语到英语的翻译,系统会以印地语和英语的方式教授相同的句子,以理解翻译。

该系统类似于Google教计算机识别图像的方式。在这种情况下,网络被馈送了数百万个特定对象的图像,例如猫,直到它可以自己识别出什么是猫。

那么,基于NMT的新系统比Google之前做的更好吗?

Google表示,更新的翻译系统在质量上要好得多,而且速度更快。较旧的计算机翻译系统要求逐个短语地完成这些操作,并且鉴于Google支持103种语言,因此该过程变得缓慢而乏味。

但是,新的多语言NMT系统要快得多,因为相同的模型可以教授多种语言,并且允许Google更快地扩展。它还学习基于句子到句子的翻译,而不仅仅是短语到短语。谷歌表示,它比以前的系统更准确,更接近基于人类的翻译,并将翻译从每句10秒提高到每句0.2秒。

该公司表示,谷歌用于这些神经翻译的新tpu (TensorFlow处理单元) 也大大提高了速度,因为这些是专门为支持此类操作而设计的。NMT的想法是弥合人机翻译之间的鸿沟。

那么系统是否完善?还是仍然有一些挑战?

人们必须记住,而不是机器学习,无论是翻译还是图像识别仍处于起步阶段。正如约翰逊 (Johnson) 所解释的那样,NMT翻译系统确实面临一些挑战,尤其是在印度拥有许多地区语言的印度。

请记住,系统需要输入句子才能理解和识别语言。它需要英语和印地语的平行句子,如果那是必须由机器翻译的那对。

正如约翰逊 (Johnson) 有时指出的那样,在网络上找到并行内容是一个挑战 (这是区域性语言的内容)。鉴于英语内容在网络中占主导地位,他称其为 “顶部的小樱桃”。这使得训练机器进行翻译的任务更加困难。Google将需要更多数据,更多区域语言的内容,以改善该系统的运行方式。

然后是翻译中的细微差别和语气问题,人类可以解释和理解,但是将其传授给机器将更加困难。

未来对用户来说意味着什么?

这个模型的想法不仅仅是翻译两对语言,比如印地语到英语。最终,这可能意味着Google Translate能够直接将印地语翻译为泰米尔语,而实际上无需专门学习。

实际上,在去年11月中,Google曾透露其系统能够进行 “零镜头翻译”,或者更确切地说,是在没有专门教导的情况下翻译成对的语言。谷歌透露,该系统找出了韩语和日语之间的翻译。在机器学习这个领域,这意味着一个重大的飞跃,因为系统已经自己想出了如何翻译。这可能会在未来改变一切。

相关推荐

猜你喜欢

特别关注

每日支付宝小鸡答题:今日小鸡庄园答题的答案2021年4月13日今日小鸡庄园答题的答案最新