您的位置:首页 >访谈 >

Alphabet的DeepMind正在探索为什么机器人最终会杀死

当我们的机器人霸主到来时,他们会决定杀死我们还是与我们合作? Alphabet Inc. 位于伦敦的人工智能部门DeepMind的新研究最终可能会阐明这个基本问题。

他们一直在调查奖励优化的生物 (无论是人类还是机器人) 选择合作而不是竞争的条件。答案可能会对如何最终部署计算机智能来管理复杂的系统 (例如经济,城市交通流量或环境政策) 产生影响。

周四在线发表的DeepMind论文的主要作者乔尔·雷博 (Joel Leibo) 在一封电子邮件中说,他的团队的研究表明,代理商是否学会合作或竞争在很大程度上取决于他们所处的环境。

尽管该研究没有立即在现实世界中应用,但它将帮助DeepMind设计可以在信息不完美的环境中协同工作的人工智能代理。将来,无论是在运输网络还是股票市场中,此类工作都可以帮助此类代理商在充满智能实体 (包括人类和机器) 的世界中导航。

观看我们所有来自Express Technology的视频

苹果,狼

DeepMind的论文描述了研究人员如何使用两种不同的游戏来研究软件代理如何学习竞争或合作。

首先,其中两个代理商必须最大程度地增加它们在二维数字环境中可以收集的苹果数量。研究人员可以改变苹果出现的频率。研究人员发现,当苹果稀缺时,特工们很快学会了互相攻击 -- 用暂时固定住他们的射线击打或 “标记” 他们的对手。当苹果丰富时,代理商更喜欢和平共处。

然而,令人不寒而栗的是,研究人员发现,当他们尝试使用更智能的代理来利用更大的神经网络 (一种旨在模仿人脑某些部分工作方式的机器智能) 尝试相同的游戏时,他们会 “尝试标记其他代理更频繁,即行为不那么合作,无论我们如何改变苹果的稀缺性,“ 他们在DeepMind网站上的一篇博客文章中写道。

在第二场名为Wolfpack的游戏中,人工智能特工扮演了必须学会捕捉 “猎物” 的狼。成功不仅为捕获的狼提供了奖励,而且还为捕获范围内的所有狼提供了奖励。在这个捕获半径中出现的狼越多,所有狼都会得到更多的积分。

在这个游戏中,特工们普遍学会了合作。与apple-gathering游戏不同,在Wolfpack中,代理商的认知能力越先进,它就学会了更好的合作。研究人员推测,这是因为在收集苹果的游戏中,拍打行为更为复杂-它需要将光束对准对手; 而在Wolfpack游戏中,合作是更复杂的行为。

研究人员推测,由于不太复杂的人工智能系统更难掌握这些复杂的行为,更简单的人工智能无法学会有效地使用它们。

谷歌2014年收购的DeepMind最出名的是创造了一种人工智能,可以在古老的亚洲战略游戏Go中击败世界顶级人类玩家。11月年,DeepMind宣布正在与制作视频游戏《星际争霸II》的动视暴雪娱乐公司合作,将该游戏转变为AI研究的平台。

雷波说,在苹果采集和狼群实验中使用的代理没有短期记忆,因此无法对另一代理的意图做出任何推断。他说: “展望未来,让特工有能力推理其他特工的信念和目标将是一件有趣的事情。”

同时,保留一些备用苹果可能是明智的。

相关推荐

猜你喜欢

特别关注