DeepMinds New AI像人类一样从头开始自学

健康作者 / 姓名 / 2025-06-30 21:15
"
DeepMinds New AI像人类一样从头开始自学  喜欢指数的未来?加入我们的Xpotential社区,通过Xpotential University的课程进行

DeepMinds New AI像人类一样从头开始自学

  喜欢指数的未来?加入我们的Xpotential社区,通过Xpotential University的课程进行未来的证明,阅读有关指数技术和趋势,连接,观看Keynote或浏览我的博客。

  正如各地的人们认为,将来我们将需要更多数据来培训人工智能(AI)模型,我越来越看到相反的情况,因为公司开发AI的人工智能训练自己 - 没有数据或至少很少的数据 - 并且变得更加“直观”。被称为射击或零镜头学习,这可能是AI的未来,或者至少是一些AI模型。

  Minecraft是有史以来最受欢迎的游戏之一,是一个开放的世界,玩家在该世界中建造地形并制作各种物品和工具。没有人向他展示如何在游戏中浏览。但是随着时间的流逝,他通过反复试验学习了基础知识,最终弄清楚了如何制作复杂的设计,例如主题公园以及整个工作城镇。但是首先,他必须收集材料,其中一些材料(尤其是钻石)很难收集。

  现在,一个新的DeepMind AI可以做同样的事情。如果不访问任何人类游戏玩法,AI就教会了自己开采钻石所需的规则,物理和复杂的动作。

  演讲者马修·格里芬(Matthew Griffin)的AI和生成性AI的未来

  研究作者Danijar Hafner在博客文章中写道:“据我们所知,Dreamer在开箱即用,这是第一个从头开始收集Minecraft中的钻石的算法。”

  但是玩Minecraft并不是重点。AI科学家长期以来一直是一般算法可以解决各种问题的任务,而不仅仅是他们接受过的问题。尽管当今的某些模型可以在类似问题上推广一项技能,但他们努力将这些技能转移到需要多个步骤的更复杂的任务中。

  在有限的Minecraft世界中,Dreamer似乎具有这种灵活性。在学习了其环境模型之后,它可以“想象”未来的情况,以改善其在每个步骤中的决策,并最终能够收集该难以捉摸的钻石。

  哈佛大学的凯恩·瓦法(Keyon Vafa)说,这项工作“是关于培训单个算法,以跨越多种多样的任务进行良好的工作。”“这是一个臭名昭著的问题,结果很棒。”

  孩子们自然会吸收他们的环境。通过反复试验,他们很快就会学会避免触摸热炉,并扩展是最近二手烤箱。这个过程被称为强化学习,将经验(例如“ Yikes,thing than thing than thing”)结合到了世界如何运作的模型中。

  一种心理模型使人们更容易想象或预测后果并将以前的经验推广到其他情况。而且,当决策无法解决时,大脑会更新其对动作后果的建模 - “我掉了一加仑的牛奶,因为它对我来说太重了” - 因此,孩子们最终学会了不重复相同的行为。

  科学家已经采用了AI的相同原则,从本质上提出了像孩子一样的算法。Openai先前开发了强化学习算法,这些学习算法学会了使用最少的培训玩快节奏的多人Dota 2视频游戏。其他这样的算法已经学会了控制能够解决多个任务或击败最难的Atari游戏的机器人。

  从错误和胜利中学习听起来很容易。但是我们生活在一个复杂的世界中,甚至是简单的任务,例如制作花生酱和果冻三明治,都涉及多个步骤。而且,如果最后的三明治变成了超负荷潮湿的憎恶,那么哪一步出错了?

  这就是稀疏奖励的问题。我们不会立即获得有关每个步骤和行动的反馈。AI中的强化学习与类似的问题斗争:算法如何弄清他们的决定是对还是错?

  Minecraft是一个理想的AI训练场。

  玩家可以自由地探索游戏的广阔地形 - 农田,山脉,沼泽和沙漠 - 并随后收获专业材料。在大多数模式中,玩家使用这些材料来建造复杂的结构 - 从鸡政变到埃菲尔铁塔 - 剑和围栏等工艺物体,或者开设农场。

  游戏还重置:每次玩家加入新游戏时,世界地图都不同,因此记住以前的策略或地点挖掘材料无济于事。取而代之的是,玩家必须更普遍地学习世界物理学以及如何实现目标 - 例如挖掘钻石。

  这些怪癖使游戏成为可以概括的AI的特别有用的测试,而AI社区的重点是将钻石作为最终挑战。这要求玩家完成多个任务,从砍伐树木到制作采摘和将水载到地下熔岩流。

  孩子们可以学习如何从10分钟的YouTube视频中收集钻石。但是在2019年的一场比赛中,即使经过长达四天的培训,AI也挣扎了大约1000个小时的人类游戏录像。

  模仿游戏玩家行为的算法比纯粹是通过强化学习学习的算法要好。当时的一位竞赛组织者评论说,后者不会自行参加比赛。

  Dreamer并没有依靠人类游戏玩法,而是通过实验来学习游戏,从头开始学习游戏。

  AI由三个主要神经网络组成。这些模型中的第一个模型是Minecraft世界,建立了对其物理学以及行动如何工作的内部“理解”。第二个网络基本上是判断AI行动结果的父母。那真的是正确的举动吗?然后,最后一个网络决定收集钻石的最佳下一步。

  这三个组件都使用AI以前的尝试的数据同时培训 - 有点像玩家一次又一次地玩耍,因为它们的目标是完美的运行。

  哈夫纳告诉《大自然》,世界建模是梦想家成功的关键。该组成部分模仿了人类玩家看到游戏的方式,并允许AI预测其行为如何改变未来,以及未来是否带来奖励。

  哈夫纳说:“世界模型确实使AI系统具有想象未来的能力。”

  为了评估梦想家,该团队在150多个任务中对几种最新的单数使用算法提出了质疑。一些人测试了AI维持更长决策的能力。其他人给出了恒定或稀疏的反馈,以查看计划如何在2D和3D世界中进行。

  团队写道:“梦想者匹配或超过了最好的[AI]专家。”

  然后,他们转向了更艰巨的任务:收集钻石,这需要十几个步骤。中级奖励帮助Dreamer获得了最大的成功机会。作为一个额外的挑战,团队每半小时重置游戏,以确保AI没有形成并记住特定的策略。

  在大约九天的连续游戏玩法之后,Dreamer收集了一颗钻石。这比只需要20分钟左右的专家人类玩家要慢得多。但是,AI并未专门训练该任务。它教会了如何开采游戏中最令人垂涎​​的物品之一。

  该团队写道,AI“为未来的研究方向铺平了道路,包括从互联网视频中传授AI代理世界知识和学习单一世界模型”,以便他们可以越来越多地积累对我们世界的一般理解。

  哈夫纳说:“梦想家标志着迈向通用AI系统的重要一步。”

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读