来源: 时间:2022-07-16 18:35:04
科学家们开发了一种人工智能技术,该技术将教会机器人和计算机程序与人类教练互动,并为军队执行任务。美国陆军研究实验室和德克萨斯大学奥斯汀分校的研究人员考虑了一个特定的案例,即人类以批评的形式提供实时反馈。
研究人员首先引入了通过评估强化(TAMER)手动训练智能体的方法,该团队开发了一种名为Deep TAMER的新算法。它是TAMER的扩展,使用深度学习--一类机器学习算法,大致受大脑启发,为机器人提供通过与人类训练师在短时间内观看视频流来学习如何执行任务的能力。
该小组考虑了这样的情况,即人类通过观察并提供批评来教代理人如何行为,例如,“好工作”或“坏工作”--类似于人训练狗表演恶作剧的方式。许多当前的人工智能技术要求机器人与他们的环境进行长时间的交互,以学习如何最优地执行任务。
在这个过程中,代理可能执行的动作不仅可能是错误的,比如机器人撞到墙上,而且可能是灾难性的,比如机器人从悬崖边跑下来。美国陆军研究实验室的研究员Garrett Warnell说,人类的帮助将加快特工的速度,并帮助他们避免潜在的陷阱。
作为第一步,研究人员展示了Deep Tamer的成功,使用15分钟的人类提供的反馈来训练agent在Atari保龄球游戏中表现得比人类更好--这一任务被证明即使是人工智能中最先进的方法也很困难。经过深度驯服训练的特工展示了超人的表现,击败了他们的业余教练,平均来说,也击败了雅达利的专业人类球员。
在接下来的一到两年内,研究人员有兴趣探索他们的最新技术在更广泛的环境中的适用性:例如,除了雅达利保龄球之外的视频游戏和其他模拟环境,以更好地代表在现实世界中部署机器人时发现的代理和环境类型。“未来的军队将由士兵和并肩工作的自主队友组成,”沃内尔说。
“虽然人类和自主智能体都可以提前接受训练,但团队将不可避免地被要求在他们从未见过的新环境中执行任务,例如搜索和救援或监视,”他说。“在这些情况下,人类非常擅长概括他们的训练,但目前的人工智能代理不是,”他补充说。
相关推荐
猜你喜欢