手机端
当前位置:主页 > 科技前沿 >

人工智能学会了玩捉迷藏游戏,独自策略是惊人的



通过凯尔西派珀本周,领先的AI实验室OpenAI发布了他们的最新项目:可以玩捉迷藏的AI。这是最新的示例,说明如何使用当前AI代理玩的是一个非常简单的游戏版本,只要“ hiders”在他们的视野内,“寻求者”就会获得积分。

“躲藏者”一开始就有一点时间来建立一个藏身之处,并在成功藏匿自己之后获得积分。双方都可以在运动场周围移动对象(例如块,墙和坡道),从而获得优势。这种在4.81亿次“捉迷藏”游戏中,人工智能正在制定战略和对策,并且人工智能特工从随机奔跑转向与盟友协调以使复杂的战略任务。

(沿途,他们还展示了以意想不到的方式打破游戏物理学的能力;更多内容请参见下文)这是一个最新的示例,说明一种简单的AI技术(称为强化学习)可以完成多少工作,在该技术中,AI系统获得所需行为的“奖励”,并且可以轻松学习数百万种游戏,以获取最大回报。

过去,研究人员在其他技术中利用强化学习来构建可以玩复杂的战时策略游戏的AI系统,一些研究人员认为,仅通过强化学习就可以构建高度复杂的系统。这个简单的捉迷藏游戏很好地说明了强化学习如何在行动中起作用以及简单的指令如何产生令人震惊的智能行为。

人工智能的能力无论好坏都在不断前进您可以在此处观看整个视频,或查看这些精彩片段第一课:。如何追逐和隐藏可能已经进行了数百万次“捉迷藏”游戏,但最终AI代理发现了游戏的基本原理:在地图上互相追逐第二课:如何建立防御性庇护所AI代理可以将块“锁定”到位。

只有锁定方块的团队才能解锁它。经过数百万次的练习后,AI代理学会了在可用的区块之外建造庇护所。您可以在这里看到他们这样做。在庇护所中,“寻求者”特工找不到他们,因此这对‘隐藏者’是一种胜利 - 至少在有人提出新想法之前几百万代后,寻求者已经找到了如何通过‘躲藏者’来处理这种行为:他们可以拖过斜坡,爬上斜坡并找到藏身者。

通过YouTube OpenAI刷新之后,藏匿者学会了反击:他们可以将坡道冻结在适当的位置,以使搜寻者无法移动它们。OpenAI的团队注意到他们认为这将是游戏的结局,但是他们错了。箱子冲浪突破避难所最终,搜寻者学会了将箱子推到冰冻的坡道上,爬上箱子,然后将其“冲浪”到避难所,在那里他们可以再次找到藏身处。

防止冲浪这里的藏身者有一个明显的对策:。冻结周围的一切,使寻找者没有任何可使用的工具确实,这就是他们学习如何做的事情这就是AI代理和数百万游戏经验之间的捉迷藏游戏。有趣的是,所显示的任何行为都不是直接受教的,甚至没有直接得到奖励的。代理商只有在赢得比赛时才能获得奖励。但是,这种简单的激励措施足以鼓励许多创造性的游戏行为。

许多AI研究人员认为,强化学习也可以用于解决具有现实意义的复杂任务从简单的指令中产生强大的战略决策的方式是有希望的 - 但它也令人担忧如前所述,通过。强化学习解决问题会导致许多意想不到的行为-令人惊讶迷迷藏,但可能会警告一种用于治疗癌症的药物(如果意外行为导致危及生命的并发症))或逐步提高发电厂输出的算法(如果AI安排在其目标中利用某些晦涩的条件,而不是简单地提供一致的功率)。

这是强化学习等技术的危险方面。一方面,它们是强大的技术,可以从简单的起点产生高级行为。另一方面,它们是强大的技术,可以从简单的起点产生意外的(有时是不希望的)高级行为。随着AI系统变得越来越强大,我们需要仔细考虑如何确保它们按我们的意愿行事。
分享至:

®关于本站文章™ | 若非注明其他来源,默认 均为本站编辑部原创文章,如有侵权,请联系我们™