一个 AI 玩 41 个游戏，谷歌最新多游戏决策 Transformer 综合表现分是 DQN 的两倍

来源：本站作者：佚名时间：03-28 手机版

谷歌 AI 宣布，在多任务学习上取得了巨大进展：他们搞出一个会玩 41 款雅达利游戏的 AI，而且采用的新训练方法比起其他算法，训练效率大大提升！

此前会玩星际争霸的 CherryPi 和火出圈的 AlphaGo 都属于单游戏智能体（Agent），也就是说，一个 AI 只会玩一种游戏。多游戏智能体这边，现有的训练算法屈指可数：主要包括时间差分学习算法（Temporal Difference Learning，TD）和行为克隆（Behavioral Cloning，BC）等。

不过为了让一个智能体同时学会玩多款游戏，之前的这些方法的训练过程都很漫长。

现在，谷歌采用了一个新决策 Transformer 架构来训练智能体，能够在少量的新游戏数据上迅速进行微调，使训练速度变得更快，而且训练效果也是杠杠的 —— 该多游戏智能体玩 41 款游戏的表现综合得分，是 DQN 等其他多游戏智能体的 2 倍左右，甚至可以和只在单个游戏上训练的智能体媲美。

△ 100% 表示每款游戏的人类平均水平，灰色条代表单游戏智能体，蓝色条代表多游戏智能体

下面就来看看这个性能优秀的多游戏智能体。

新决策 Transformer 三大亮点

这个处理多款游戏学习的 Transformer，采用了一个将强化学习（Reinforcement Learning，RL）问题视为条件序列建模的架构，它根据智能体和环境之间过去的互动以及预期收益，来指导智能体的下一步活动。

说到强化学习，其讨论的主要问题是：在训练过程中，一个面对复杂环境的智能体，如何通过在每个 Time Step 里感知当前状态和 Reward 来指导下一步动作，以最终最大化累计收益（Return）。

传统的深度 RL 智能体（如 DQN、SimPLe、Dreamer 等）会学习一个策略梯度（Policy Gradient），让高 Reward 的轨迹出现概率变大，低 Reward 的轨迹出现概率变小。

这就导致它出现一些问题：即需要手动定义一个信息量很大的标量值范围，包含针对于每个特定游戏的适当信息。这是个相当浩大的工程，而且拓展性较差。

为了解决这个问题，谷歌团队提出了一个新方法。

训练纳入数据更多样化

谷歌的这个新决策 Transformer，把从入门玩家到高级玩家的经验数据都映射到相应的收益量级（Return Magnitude）中。开发者们认为，这样可以让 AI 模型更全面地“了解”游戏，从而让其更稳定并提高其玩游戏的水平。

他们根据智能体在训练期间与环境的互动，建立了一个收益的大小分布模型。在这个智能体玩游戏时，只需添加一个优化偏差来提升高 Reward 出现的概率。

此外，为了在训练期间更全面地捕捉智能体与环境互动的时空模式，开发者还将输入的全局图像改成了像素块，这样模型就可以关注局部动态，以掌握游戏相关的更多细节信息。

△ 决策 Transformer 基本架构示意图

可视化智能体训练过程

此外，开发者们还别出心裁地将智能体的行为可视化。然后他们发现，这个多游戏决策智能体一直都在关注着包含关键环境特征等重要信息的区域，而且它还可以“一心多用”：即同时关注多个重点。

△ 红色越亮表示智能体对那块像素的关注度越高

这种多样化注意力分配也提高了模型的性能。

拓展性更好

如今规模已成为许多机器学习相关突破的重要驱动力之一，而规模拓展一般是通过增加 Transformer 模型中的参数数量来实现的。研究者发现，这个多游戏决策 Transformer 也是类似的：随着规模扩大，和其他模型相比，其性能提升显著。

Facebook 也在研究决策 Transformer

谷歌 AI 使用决策 Transformer 不仅提高了 AI 玩多个游戏的水平，还提升了多游戏智能体的扩展性。

除此之外，据谷歌大脑、加州大学伯克利分校和 Facebook AI Research 合作的一篇论文介绍，决策 Transformer 架构在强化学习研究平台 OpenAI Gym 和 Key-to-Door 任务上也表现出色。

或许决策 Transformer 正是通用人工智能（AGI）发展的关键因素之一。

对了，谷歌 AI 表示，相关代码和 Checkpoint 会在 GitHub 上陆续开源，感兴趣的小伙伴们可以去看看~

传送门：

https://github.com/google-research/google-research/tree/master/multi_game_dt

参考链接：

[1]https://twitter.com/GoogleAI/status/1550260410686644224

[2]https://ai.googleblog.com/2022/07/training-generalist-agents-with-multi.html

[3]https://arxiv.org/abs/2106.01345

[4]https://zhuanlan.zhihu.com/p/354618420

DQN是什么？

DQN是贬义词，有多重含义。

通指横蛮无理又爱用暴力的人、或指缺乏常识的人。

详细有如下列多重含义。

一、指以自我为中心，有反社会言论、行为的反社会者及非常人。

二、指欠缺一般常识、礼仪

三、指学历低下的人

四、指不良少年

可见DQN的形象一直与横蛮无理、爱用暴力、缺乏常识、学历低下的不良少年密切相连。

随著泛用後，现在不仅仅限於形容不良少年。而在2ch，DQN往往跟厨房是共生的。

用法举例

DQN名字 → 非常识系名字 → 奇葩名字

DQN父母 → 无道德且缺常识的父母

DQN企业 → 无法律观念且缺常识的企业

DQN系中二病 → 不良系中二病

DQN学校 → 升学率低下的学校 → 不良少年群集的学校

DQN阶层 → 低学历阶层

起源

起源於朝日电视台在1994年~2002年播放的节目「目撃!ドキュン」。节目内容是接受委托帮助其寻找想见的人物。是主打「亲情系」的节目，在当时颇有人气。

在每一集节目播放开始，主持人会以双手作手枪状，朝著电视萤幕前的观众喊「目~击！咚~~乔」。其中「咚~~乔」两字是拟声词，作拖长发音以表示手枪发射的声音。

由於该节目中登场的「不良少年」过多，且表现得过於缺乏常识。所以对其亦有「十五岁结婚生子，二十岁离婚，四十岁上目击DOKYUN寻子」的说法。

在1998年，当时日本最大的论坛「あめぞう」的网民最初用「ドキュン」一词仅用於嘲笑学历低下的人。

在传播过程中「ドキュンDOKYUN」被缩略成「DQN」，且含义逐渐多重化。

随後被带入2ch，经过2ch网民变体有「ドキュソ」的写法，将原词的「ン（n）」改写成片假名相似的「ソ（so）」,有谐音日语「大便」的意思，更显贬义色彩。

新版阿法狗碾压旧版，人工智能究竟能发展成什么样？

最新版本阿尔法狗：自学3天，就100:0碾压李世石版旧狗。这太可怕了，我要大胆说一句：‍‍人工智能很可能导致人类的永生或者灭绝，而这一切很可能在我们的有生之年发生。‍‍

这并不是危言耸听，其实人工智能的概念很宽，所以人工智能大体可以分为三种：

第一、弱人工智能: 弱人工智能是擅长于单个方面的人工智能。比如有能战胜象棋世界冠军的人工智能，但是它只会下象棋。

第二、强人工智能:人类级别的人工智能。强人工智能是指在各方面都能和人类比肩的人工智能，人类能干的脑力活它都能干。

第三、超人工智能：牛津哲学家，知名人工智能思想家Nick Bostrom把超级智能定义为“在几乎所有领域都比最聪明的人类大脑都聪明很多，包括科学创新、通识和社交技能。”超人工智能可以是各方面都比人类强一点，也可以是各方面都比人类强万亿倍的。

这样一分，我们不难看出，现在的人工智能还处在＂弱智”阶段。

回到问题，我们会注意到强调的是：新版本、碾压。这则新闻还有一个点就是自学三天。说到

这里，我要引出一个沉重的概念：‍‍递归的自我改进。

‍‍‍‍这个概念是这样的：一个运行在特定智能水平的人工智能，比如说脑残人类水平，有自我改进的机制。当它完成一次自我改进后，它比原来更加聪明了，我们假设它到了爱因斯坦水平。而这个时候它继续进行自我改进，然而现在它有了爱因斯坦水平的智能，所以这次改进会比上面一次更加容易，效果也更好。第二次的改进使得他比爱因斯坦还要聪明很多，让它接下来的改进进步更加明显。如此反复，这个强人工智能的智能水平越长越快，直到它达到了超人工智能的水平---这就是智能爆炸，也是加速回报定律的终极表现。‍‍

试想一下：一个人工智能系统花了几十年时间到达了人类脑残智能的水平，而当这个节点发生的时候，电脑对于世界的感知大概和一个四岁小孩一般；而在这节点后一个小时，电脑立马推导出了统一广义相对论和量子力学的物理学理论；而在这之后一个半小时，这个强人工智能变成了超人工智能，智能达到了普通人类的17万倍。‍‍

‍‍当一个超人工智能出生的时候，对我们来说就像一个全能的上帝降临地球一般。‍

人工智能是什么？

人工智能（计算机科学的一个分支）

人工智能（Artificial Intelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，但没有一个统一的定义。

人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。但是这种会自我思考的高级人工智能还需要科学理论和工程上的突破。

人工智能是一门极富挑战性的科学，从事这项工作的人必须懂得计算机知识，心理学和哲学。人工智能是包括十分广泛的科学，它由不同的领域组成，如机器学习，计算机视觉等等，总的说来，人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。但不同的时代、不同的人对这种“复杂工作”的理解是不同的。

工智能的定义可以分为两部分，即“人工”和“智能”。“人工”比较好理解，争议性也不大。有时我们会要考虑什么是人力所能及制造的，或者人自身的智能程度有没有高到可以创造人工智能的地步，等等。但总的来说，“人工系统”就是通常意义下的人工系统。

关于什么是“智能”，就问题多多了。这涉及到其它诸如意识（CONSCIOUSNESS）、自我（SELF）、思维（MIND）（包括无意识的思维（UNCONSCIOUS_MIND）等等问题。人唯一了解的智能是人本身的智能，这是普遍认同的观点。但是我们对我们自身智能的理解都非常有限，对构成人的智能的必要元素也了解有限，所以就很难定义什么是“人工”制造的“智能”了。因此人工智能的研究往往涉及对人的智能本身的研究。其它关于动物或其它人造系统的智能也普遍被认为是人工智能相关的研究课题。

人工智能在计算机领域内，得到了愈加广泛的重视。并在机器人，经济政治决策，控制系统，仿真系统中得到应用。

相关推荐：

win7屏幕抖动怎么设置？win7屏幕抖动解决方法

win7无线连接图标不见了怎么办？win7网络连接图标不见了解决办法

B站上线 Hi-Res 无损音质

win716g内存虚拟内存设置多少合适？win716g内存虚拟内存设置多少教程

开山之作造假！Science 大曝 Nature 重磅论文学术不端，恐误导全球 16 年

win10怎么关闭安全中心？win10关闭安全中心方法

华为 Mate 50 Pro 即将到来：消息称其前摄区域功能非常丰富，但不是很美观

标签: [db:标签]