Allbet:DeepMind最新论文:强化学习“足以”到达通用人工智能

Allbet电脑版下载

欢迎进入Allbet电脑版下载(www.aLLbetgame.us),欧博官网是欧博集团的官方网站。欧博官网开放Allbet注册、Allbe代理、Allbet电脑客户端、Allbet手机版下载等业务。

,

从 1956 年达特茅斯聚会首次界说人工智能(AI)至今,人工智能已经履历了 60 多年的生长历程,盘算机领域的科学家们取得了一次又一次的革命性提高,从机械学习、深度学习到强化学习,科学家们设计开发出了许多庞大的人工智能机制和手艺,来复制人类视觉、语言、推理、运动技术和其他与智能生命相关的能力。

只管这些起劲使得人工智能系统能够在有限的环境中有用地解决一些特定的问题,但现在还没有开发出像人类和动物一样 “会思索的机械” ,“通用人工智能(AGI)” 时代尚未到来,想要让机械完全模拟人类举行自主学习、模式识别、想象缔造等流动看起来遥不能及。

只管一些乐观主义者以为通用人工智能离我们不到十年,但一项针对机械学习专家的大型考察注释,若是存在通用人工智能,那我们可能要到 2040 年左右才气拥有它。

克日,来自 DeepMind 的科学家在提交给偕行评议的期刊《人工智能》(Artificial Intelligence)上的一篇题为 “Reward is enough” 的论文中以为,人工智能及其相关能力不是通过制订息争决庞大问题而发生的,而是通过坚持一个简朴而壮大的原则:奖励最大化。

(泉源:ScienceDirect)

该研究由 DeepMind 首席研究科学家、伦敦大学学院教授 David Silver 领衔,研究灵感源于他们对自然智能的进化研究以及人工智能的最新成就,在撰写论文时仍处于预证实阶段。研究职员以为,奖励最大化和试错履历足以培育显示出与智力相关的能力行为。由此,他们得出结论,强化学习是基于奖励最大化的人工智能分支,可以推动通用人工智能的生长。

“奖励最大化” 的人工智能实现途径

确立人工智能的一种常见方式就是在盘算机中实验复制智能行为的元素。例如,我们对哺乳动物视觉系统的明晰催生了种种人工智能系统,来实现对图像举行分类、定位照片中的工具、界说工具之间的界线等等。同样,我们对语言的明晰有助于开发种种自然语言处置系统,例如回覆问题、文本天生和机械翻译。

这些都是狭义人工智能的实例,这些系统旨在执行特定义务,而不是具有一样平常解决问题的能力。一些科学家以为,组装多个狭义的人工智能模块会发生更高的智能系统。例如,我们可以拥有一个软件系统,在单独的盘算机视觉、语音处置、NLP 和电机控制模块之间举行协调,以解决需要多种技术的庞大问题。

相比之下,通用人工智能有时也被称为人类级其余人工智能,它更像是《星球大战》中的 C-3PO,由于它可以明晰上下文、潜台词和社会线索,甚至被以为可能完全跨越人类。

(泉源:pixabay)

Deep Mind 的研究职员提出的另一种确立人工智能的方式:重新确立发生自然智能的简朴而有用的规则。为什么自然界中的的动物和人类会显示出厚实多样的智能行为?Silver 等人指出,可能是由于每一种能力都源于对一个目的的追求,而这个目的是专门为引发这种能力而设计的。为此,该研究设计了一个替换假设:最大化奖励的一样平常目的足以驱动显示出自然和人工智能研究的大部门(只管不是所有)能力的行为。”

这种假设基本上是遵守达尔文的生物进化论。从科学的角度剖析,在我们周围看到的庞大有机体中,并没有自上而下的智能设计。数十亿年的自然选择和随机变异过滤了生命形式,使其适合生计和滋生,能够更好地应对环境中的挑战和情形的生物想法生计和滋生。其余的都被镌汰了。

这种简朴而有用的机制导致了具有种种感知、导航、改变环境和相互交流的技术和能力的生物去进化。

图 | “奖励就足够” 的假设,假定智力及其相关能力可以被明晰为在其环境中行动的主体促进奖励的最大化

研究职员在论文中写道:“动物和人类面临的自然天下,以及人工署理未来面临的环境,本质上都是云云庞大,以至于它们需要庞大的能力才气在这些环境中生计下来。因此,以奖励最大化来权衡的乐成需要种种与智力相关的能力。在这样的环境中,任何使奖励最大化的行为都必须显示出这些能力。从这个意义上说,奖励最大化的一样平常目的包罗许多甚至可能的所有智能目的。”

例如,思量一只松鼠,它为了追求削减饥饿的奖励。一方面,它的感官和运动技术辅助它在有食物时定位和网络坚果。然则,当食物变得稀缺时,一只只去寻找食物的松鼠一定会饿死。这就是为什么它也有设计技术和影象来缓存坚果并在冬天恢复它们。松鼠具有社交技术和知识,可以确保其他动物不会偷吃它的坚果。若是你放大来看,饥饿最小化可能是 “活下去” 的一个子目的,这还需要一些技术,例如发现和逃避危险动物、珍爱自己免受环境威胁以及寻找季节性转变的更好栖息地。

研究职员写道:“当与智力相关的能力作为奖励最大化的单一目的的解决方案泛起时,这现实上可能提供了一个更深入的明晰,由于它注释了为什么这种能力会泛起。相反,当每一种能力被明晰为其自身专门目的的解决方案时,为了关注该能力的作用,为什么的问题就被绕开了。”

研究职员以为,在可能的奖励最大化方式中,最通用和可扩展的方式是智能体通过试错及与环境的交互来学习这样做。

通过 “奖励最大化” 生长能力

在这篇论文中,研究职员枚举了一些高级示例,来说明 “在为许多可能的奖励信号最大化服务中,智能和相关能力将若何隐含地泛起,对应于自然某人工智能可能指向的许多适用的目的。”

在知识和学习方面,研究职员将知识界说为署理人的内部信息,包罗署理人选择行动、展望累积奖励或展望未来考察的特征,这些知识有先天具备的,也有后天学习而来的知识。奖励和环境也塑造了动物与生俱来的知识。例如,由狮子和猎豹等掠食性动物统治的敌对栖息地会奖励反刍动物,它们自出生以来就具有逃避威胁的先天知识。同时,动物也因其学习栖息地特定知识的能力而获得奖励,例如在那里可以找到食物和住所。

通过枚举生物天下的学习,说明环境可能同时需要先天和后天的知识,奖励最大化的署理将在需要时,通过自然署理的进化和人工署理的设计包罗前者,并通过学习获得后者。在更厚实和更恒久的环境中,需求的平衡越来越向学习知识转移。

(泉源:VentureBeat)

在感知方面,动物的感官技术服务于在庞大环境中生计的需要。工具识别使动物能够检测食物、猎物、同伙和威胁,或找到路径、呵护所和栖息地;图像支解使他们能够分辨差异工具之间的差异,并制止致命错误,例如跑下悬崖或从树枝上掉下来;听觉有助于发现动物在伪装时看不到或找不到猎物的威胁;触觉、味觉和嗅觉也给动物带来优势,使其对栖息地有更厚实的感官体验,在危险的环境中获得更大的生计时机。

于是,研究职员假设感知可以被明晰为服务于奖励的最大化。从奖励最大化而不是监视学习的角度思量感知,最终可能会支持更大局限的感知行为,包罗具有挑战性和现实形式的感知能力。

在社会智能方面,研究职员假设社会智能可以被明晰为在包罗其他署理人的环境中,从一个署理人的角度最大化累积奖励来实行,并推断出若是一个环境需要社会智能,奖励最大化将发生社会智能。

在语言明晰方面,研究职员假设语言能力的所有厚实性,包罗所有这些更普遍的能力,发生于对奖励的追求,而明晰和发生语言的压力可以来自许多奖励增添的利益。例如,一个署理人能够明晰 "危险" 忠言,那么它就可以展望并制止负面的奖励;若是一个署理可以发生 "取" 的下令,可能会导致环境将一个物体移到署理的四周。这些奖励的利益可能最终会导致署理人具备种种庞大的语言技术。

它是一个署理人凭证庞大的考察序列(如吸收句子)发生庞大的行动序列(如说出句子),以影响环境中的其他署理人并积累更大的奖励的能力的一个实例。明晰和发生语言的压力可以来自许多奖励增添的利益。

研究职员还讨论了泛化、模拟以及一样平常智能的奖励驱动基础,将其形貌为 “在单一、庞大的环境中使单一奖励最大化 "。在这项研究中,研究职员在自然智能和通用人工智能之间举行了类比:“动物的履历流足够厚实和多样的,它可能需要一种天真的能力来实现林林总总的子目的(例如觅食、战斗或逃跑),以便乐成地最大化其整体奖励(例如饥饿或滋生)。类似地,若是一小我私人工智能署理的履历流足够厚实,那么许多目的(例如电池寿命或生计)可能隐含地需要实现同样普遍的子目的的能力,因此奖励的最大化应该足以发生一种通用的人工智能。”

“奖励最大化” 的强化学习

根据人工智能之父 John McCarthy 的说法,“智力是在天下局限内实现目的的能力的盘算部门”,而厥后生长起来的强化学习将追求目的的智能问题正式化,对应于差异智能形式的奖励信号,在差其余环境中若何实现最大化。

强化学习是人工智能算法的一个特殊分支,由三个要害要素组成:环境(Environment)、署理(Agent)和奖励(Reward)。通过执行操作,代剖析改变自己和环境的状态。凭证这些动作对署理必须实现的目的的影响水平,对其举行奖励或责罚。在许多强化学习问题中,智能体没有环境的初始知识,并从随天真作最先。凭证收到的反馈,署理学习调整其行为并制订最大化其奖励的计谋。

(泉源:TechTalks)

在强化学习研究领域的一个著名的例子:敲锣训猴。驯兽师在训练猴子时,以敲锣为信号来训练猴子站立敬礼,每当猴子很好地完成站立敬礼的动作,就会获得一定的食物奖励;若是没有完成或者完成的纰谬,不仅不会获得食物奖励,甚至会获得一顿鞭子抽打。由于听到敲锣后站立敬礼是猴子在所处环境下能够获得的最大收益,以是时间长了猴子自然在听到驯兽师敲锣后,就会站立敬礼。

强化学习就是训练工具若何在环境给予的奖励或责罚的 *** 下,逐步形成对 *** 的预期,发生能获得最大利益的习惯性行为。在这篇论文中,DeepMind 的研究职员建议将强化学习作为主要算法,它可以复制自然界中看到的奖励最大化,并最终导致通用人工智能。

研究职员写道:“若是一个智能体可以不停调整其行为以提高其累积奖励,那么其环境频频要求的任何能力最终都必须在智能体的行为中发生。” 并弥补说,一个好的强化学习署理可以在学习历程中获得显示出感知、语言、社会智能等的行为,以便在一个环境(如人类天下)中实现奖励最大化,在这个环境中,这些能力具有延续的价值。

在论文中,研究职员提供了几个例子,展示了强化学习署理若何能够在游戏和机械人环境中学习一样平常技术。例如,当被要求在围棋竞赛中取得最大胜利时,AlphaZero 学会了跨越围棋许多方面的综合智能。

然而,研究职员强调,一些根个性的挑战仍未解决,他们并没有对强化学习署理的样本效率提供任何理论上的保证。而是意料,当壮大的强化学习署理被置于庞大的环境中时,将在实践中发生庞大的智能表达。若是这个意料是准确的,它将为实现人工通用智能提供了一条完整的途径。

强化学习以需要大量数据而著名,强化学习署理可能需要几个世纪的游戏时间才气掌握盘算机游戏。研究职员仍然没有想出若何确立强化学习系统来将他们的学习推广到多个领域。因此,环境的细小转变通常需要对模子举行周全的重新训练。

研究职员还认可,奖励最大化的学习机制是一个未解决的问题,仍然是强化学习中有待进一步研究的焦点问题。论文抛出了整个强化学习领域研究的一个焦点问题,即若何在一个适用的署理中有用地学习奖励最大化。

“奖励最大化” 的优瑕玷

加州大学圣地亚哥分校的神经科学家、哲学家和信用教授帕特里夏 丘奇兰(Patricia Churchland)将该论文中的想法形貌为 “异常仔细和有见识的解决方案”。

然而,Churchland 也指出了该论文关于社会决议的讨论中可能存在的缺陷。Churchland 最近写了一本关于道德直觉的生物学起源的书,他以为依恋和联系是哺乳动物和鸟类社会决议的一个壮大因素,这就是为什么动物为了珍爱他们的孩子而将自己置于极大的危险之中。

Churchland 说:“我倾向于将亲密关系以及其他人的关切视为自己,也就是 “我和我” 的局限的延伸。在这种情形下,我以为,对论文假设举行小幅修改以实现对 “我和我” 的奖励最大化会异常有用。固然,我们群居动物都有依恋水平,对后裔超强依恋、对配偶和支属异常强依恋,对同伙和熟人很强依恋等等,依恋类型的强度会因环境和发育阶段而异。”

Churchland 示意,这不是一个主要的指斥,而且很可能会异常优雅地融入这个假设。Churchland 说:“我对论文的详细水平以及他们思量可能存在的弱点的仔细水平印象深刻。我可能也纰谬,但我倾向于以为这是一个里程碑。”

针对 “哪一个通用目的可以发生所有形式的智能” 这一问题。研究职员在讨论部门提到,在差其余环境中实现差其余奖励最大化可能会导致差其余、壮大的智能形式,每一种智能都市显示出自己令人印象深刻的、但又无法对比的一系列能力。一个好的奖励最大化的署理将行使其环境中存在的任何元素,但某种形式的智能的泛起并不以它们的详细内容为条件。

相比于只有全心构建的奖励才有可能诱发一样平常的智力,研究职员以为人工智能署理智力的泛起可能对奖励信号的性子相当稳健。此外,他们建议强化学习问题也可以转化为一个概率框架,靠近于奖励最大化的目的。

(泉源:pixabay)

数据科学家 Herbert Roitblat 对该论文的态度提出了挑战,即简朴的学习机制和试错履历足以培育与智能相关的能力。Roitblat 以为,论文中提出的理论在现实生涯中实行时面临着一些挑战。

Roitblat 说 “若是没有时间限制,那么试错学习可能就足够了,否则我们就会遇到无限数目的猴子在无限长的时间内打字的问题。” 无限猴子定理指出,一只猴子在无限长的时间内敲打打字机上的随机键,最终可能会打出任何给定的文本。

Roitblat 在《Algorithms are Not Enough》一书中注释了为什么所有当前包罗强化学习在内的人工智能算法,都需要仔细制订人类确立的问题和示意。他示意,一旦确立了模子及其内在示意,优化或强化就可以指导其进化,但这并不意味着强化就足够了。同样,Roitblat 弥补说,该论文没有就若何界说强化学习的奖励、动作和其他元素提出任何建议。

Roitblat 说:“强化学习假设智能体具有一组有限的潜在动作。已经指定了奖励信号和价值函数。换句话说,通用智能的问题恰恰是提供强化学习作为先决条件的那些器械。因此,若是机械学习都可以简化为某种形式的优化,以最大化某些评估措施,那么强化学习一定是相关的,但它的注释性并不强。”

参考资料:

https://www.sciencedirect.com/science/article/pii/S0004370221000862

https://venturebeat.com/2021/06/09/deepmind-says-reinforcement-learning-is-enough-to-reach-general-ai/

Allbet Gmaing电脑版下载

欢迎进入Allbet Gmaing电脑版下载(www.aLLbetgame.us),欧博官网是欧博集团的官方网站。欧博官网开放Allbet注册、Allbe代理、Allbet电脑客户端、Allbet手机版下载等业务。