研究人员开发出新算法像训练狗一样训练机器人 - 众视网

美国陆军研究实验室（ARL）和德克萨斯大学（UT）奥斯汀分校的研究人员已经开发了新的机器人或计算机程序技术，以学习如何通过与人类指导员进行交互来执行任务。这项研究的结果于2月2日至7日在路易斯安那州新奥尔良的人工智能促进协会论坛上公布。

ARL和UT研究人员考虑了一个特定的情况，即人以评论的形式提供实时反馈。奥斯汀得克萨斯大学的合作者Peter Stone博士和他的前博士生Brad Knox首先研发的TAMER，或者通过评估强化手动培训机器人人，由ARL/UT团队开发了一种新的算法叫Deep TAMER。

这是TAMER的扩展，采用深度学习，它的灵感来源于人类的大脑，让机器人可以获得通过短时间观看视频来获得执行任务的能力。

据军方研究员Garrett Warnell博士表示，研究小组认为，一个人通过观察和提供评论（例如，“好工作”或“糟糕的工作”）来教导机器人如何做事，就像人类训练狗去变戏法一样。

Warnell说，研究人员延伸了这个领域的早期工作，使这种类型的机器人或计算机程序的培训，通过图像看世界，这是设计可以在现实世界中运行的学习代理的重要第一步。

目前人工智能中的许多技术要求机器人在较长的时间内与环境进行交互，以学习如何最佳地执行任务。在这个过程中，机器人人可能会执行一些不仅可能是错误的行为，例如机器人在墙上跑步，而且可能会发生像机器人跳下悬崖等灾难性的事故。Warnell表示，来自人类的帮助将加快机器人的成长速度，并帮助他们避免潜在的陷阱。

作为第一步，研究人员展示了Deep TAMER的成功，通过15分钟的人为反馈来训练代理人在Atari保龄球游戏中比人类更好的表现，这个任务对于即使是最先进的人工智能方法而言也是非常困难的。Deep-TAMER训练的机器人展示出了过人的表现，甚至优于他们的业余训练师以及专家级人类Atari玩家。

左：ARL的研究员Garrett Warnell博士，右：德克萨斯大学（UT）奥斯汀分校教授Peter Stone博士

在未来一到两年中，研究人员有兴趣探索他们的最新技术在更广泛的环境中的适用性：例如除了Atari Bowling以外的视频游戏和更多的仿真环境，为真实世界中的机器人找到更好类型的代理和环境。

Warnell表示，“未来的军队将由士兵和自主队友并肩作战，尽管人类和自主机器人都可以提前接受培训，但他们有可能在完全陌生的新环境中执行搜索、营救或监视等任务，在这种情况下，人类可以很好地利用训练随机应变，而现在的人工智能机器人还做不到。”

Deep TAMER是研究人员设想的一系列研究的第一步，将使陆军中更加成功的人类-自主机器人团队成为可能。最终，他们需要自主的机器人人，能够以各种各样的形式，如演示、自然语言指导和评论，快速而安全地从他们的人类队友学习。美国陆军研究实验室（ARL）和德克萨斯大学（UT）奥斯汀分校的研究人员已经开发了新的机器人或计算机程序技术，以学习如何通过与人类指导员进行交互来执行任务。这项研究的结果于2月2日至7日在路易斯安那州新奥尔良的人工智能促进协会论坛上公布。

这是TAMER的扩展，采用深度学习，它的灵感来源于人类的大脑，让机器人可以获得通过短时间观看视频来获得执行任务的能力。

左：ARL的研究员Garrett Warnell博士，右：德克萨斯大学（UT）奥斯汀分校教授Peter Stone博士

Deep TAMER是研究人员设想的一系列研究的第一步，将使陆军中更加成功的人类-自主机器人团队成为可能。最终，他们需要自主的机器人人，能够以各种各样的形式，如演示、自然语言指导和评论，快速而安全地从他们的人类队友学习。

研究人员机器人算法