马库斯:在Cue我?
LLM的推理和语言跟人类截然不同
例如,现代语言学之父的诺姆·乔姆斯基(Noam Chomsky)在谈到大型语言模型时写道:「我们从语言学和知识哲学中知道,它们与人类推理和使用语言的方式截然不同。这种差异极大地限制了这些程序的功能,并给它们编码了无法根除的缺陷。」
认知科学家和当代人工智能评论家加里·马库斯(Gary Marcus)表示,前沿模型「正在学习如何听起来和看起来像人类。但他们并不真正知道自己在说什么或在做什么。」
马库斯承认神经网络可能是通用人工智能解决方案的一部分,但他认为「为了构建一个强大的、知识驱动的人工智能方法,我们的工具包中必须有符号操作机制。」
马库斯(和许多其他人)专注于寻找前沿模型(尤其是大型语言模型)的能力差距,并经常声称它们反映了该方法的根本缺陷。
这些批评者认为,如果没有明确的符号,仅仅通过学习到的「统计」方法无法产生真正的理解。
与此相关的是,他们声称没有符号概念,就不可能发生逻辑推理,而「真正的」智能需要这样的推理。
撇开智能是否总是依赖于符号和逻辑的问题不谈,我们有理由质疑这种关于神经网络和机器学习不足的说法,因为神经网络在做计算机能做的任何事情上都非常强大。例如:
– 神经网络可以轻松学习离散或符号表示,并在训练过程中自然出现。
论文地址:https://royalsocietypublishing.org/doi/epdf/10.1098/rsta.2022.0041
– 先进的神经网络模型可以将复杂的统计技术应用于数据,使它们能够根据给定的数据做出近乎最佳的预测。模型学习如何应用这些技术并为给定问题选择最佳技术,而无需明确告知。
论文地址:https://arxiv.org/pdf/2306.04637.pdf
– 以正确的方式将多个神经网络堆叠在一起会产生一个模型,该模型可以执行与任何给定计算机程序相同的计算。
论文地址:https://proceedings.mlr.press/v202/giannou23a.html
– 提供任意由计算机算出的函数的输入和输出示例,神经网络都可以学会如何逼近这个函数。(比如99.9%的正确率。)
论文地址:https://arxiv.org/pdf/2309.06979.pdf
对于批评的声音,都应该区别它是原教旨主义型批评还是积极讨论型的批评。
原教旨主义型批评会说:「为了被认为是通用人工智能,一个系统不仅必须通过这个测试,而且还必须以这种方式构建。」
我们不认同这样的批评,理由是测试本身应该足够——如果不够,测试应该被修改。
另一方面,积极讨论型的批评则认为:「我认为你不能让人工智能以这种方式工作——我认为用另一种方式来做会更好。」
这样的批评可以帮助确定研究方向。如果某个系统能够通过精心设计的测试,这些批评就会消失了。
语言模型通过将图像编码线性投影到语言模型的输入空间来生成图像的标注
近年来,人们设计了大量针对与「智能」、「知识」、「常识」和「推理」相关的认知任务的测试。
其中包括无法通过记忆训练数据来回答但需要概括的新问题——当我们使用测试对象在学习期间没有遇到过的问题来测试他们的理解或推理时,我们要求测试对象提供同样的理解证明。
复杂的测试可以引入新的概念或任务,探索考生的认知灵活性:即时学习和应用新想法的能力。(这就是情境学习的本质。)
当AI批评者努力设计新的测试来测试当前模型仍然表现不佳时,他们正在做有用的工作——尽管考虑到更新、更大的模型克服这些障碍的速度越来越快,推迟几周可能是明智的选择(再次)急于声称人工智能是「炒作」。
人类凭什么是「独一无二」的?
只要怀疑论者仍然对指标不为所动,他们可能不愿意接受AGI的任何事实性的证据。
这种不情愿可能是由于想要保持人类精神的特殊性的愿望所驱动的,就像人类一直不愿意接受地球不是宇宙的中心以及智人不是「生物伟大进化」的顶峰一样。
确实,人类有一些特别之处,我们应该保持他们,但我们不应该将其与通用智能混为一谈。
有些声音认为,任何可以算作通用人工智能的东西都必须是有意识的、具有代理性、能够体验主观感知或感受感情。
但是简单推理一下就会变成这样:一个简单的工具,比如螺丝刀,显然有一个目的(拧螺丝),但不能说它是自己的代理;相反,任何代理显然属于工具制造者或工具使用者。
螺丝刀本身「只是一个工具」。同样的推理也适用于经过训练来执行特定任务的人工智能系统,例如光学字符识别或语音合成。
然而,具有通用人工智能的系统很难被归类为纯粹的工具。前沿模型的技能超出了程序员或用户的想象。此外,由于LLM可以被语言提示执行任意任务,可以用语言生成新的提示,并且确实可以自我提示(「思维链提示」),所以前沿模型是否以及何时具有「代理」的问题需要更仔细的考虑。
假设一下,Suleyman的「人工能力智能」为了在网上赚一百万美元可能采取的许多行动:
它可能会研究网络,看看最近什么东西最火,找到亚马逊商店里的爆款,然后生成一系列类似的产品的图像和制作图,发送给在阿里巴巴上找到的代发货制造商,然后通过电子邮件来完善要求并就合同达成一致。
最后设计卖家列表,并根据买家反馈不断更新营销材料和产品设计。
正如Suleyman指出的那样,最新的模型理论上已经能够完成所有这些事情,并且能够可靠地规划和执行整个操作的模型可能也要即将出现。
这样的AI看起来也不再像一把螺丝刀。
既然已经有了可以执行任意一般智能任务的系统,那么表现出代理性相当于有意识的说法似乎是有问题的——这意味着要么前沿模型是有意识的,要么代理不一定需要意识。
虽然我们不知道如何测量、验证或伪造智能系统中意识的存在。我们可以直接问它,但我们可能相信也可能不相信它的回答。
事实上,「只是问」似乎有点像罗夏墨迹测试:AI感知力的信徒会接受积极的回应,而不相信的人会声称任何肯定的回应要么只是「鹦鹉学舌」。
要么当前的人工智能系统是「哲学僵尸 」,能够像人类一样行事,但「内部」缺乏任何意识或经验。
更糟糕的是,罗夏墨迹测试适用于LLM本身:他们可能会根据调整或提示的方式回答自己是否有意识。(ChatGPT和Bard都接受过训练,能够回答自己确实没有意识。)
由于依赖于无法验证的某种「信仰」(人类和人工智能),意识或感知的争论目前无法解决。
一些研究人员提出了意识的测量方法,但这些方法要么基于不可证伪的理论,要么依赖于我们自己大脑特有的相关性。
因此这些标准要么是武断的,要么无法评估,不具有我们生物遗传特征的系统中的意识。
声称非生物系统根本不可能具有智能或意识(例如,因为它们「只是算法」)似乎是武断的,植根于无法检验的精神信仰。
类似地,比如说感觉疼痛需要伤害感受器的想法,可能会让我们对熟悉的疼痛体验到底是什么进行一些有根据的猜测,但目前尚不清楚如何将这种想法应用于其他神经结构或智力类型。
「当一只蝙蝠是什么感觉?」,这是托马斯·内格尔(Thomas Nagel)在1974 年提出了一个著名的问题。
我们不知道,也不知道我们是否能够知道,蝙蝠是什么样子,或者人工智能是什么样子。但我们确实有越来越多的测试来评估智力的各种维度。
虽然寻求对意识或感知更普遍、更严格的表征可能是值得的,但任何这样的表征都不会改变任何任务的测量能力。那么,目前尚不清楚这些担忧如何能够有意义地纳入通用人工智能的定义中。
将「智能」与「意识」和「感知」分开来看会是更加理智的选择。
AGI会对人类社会造成什么样的影响?
关于智能和代理的争论很容易演变为关于权利、地位、权力和阶级关系的担忧。
自工业革命以来,被认为「死记硬背」或「重复性」的任务往往由低薪工人来完成,而编程——一开始被认为是「女性的工作」——只有当它在工业革命中成为男性主导时,其智力和经济地位才会上升。
20世纪70年代。然而讽刺的是,即使对于GOFAI来说,下棋和解决积分问题也很容易,但即使对于当今最复杂的人工智能来说,体力劳动仍然是一项重大的挑战。
1956年夏天,一群研究人员在达特茅斯召开会议,研究「如何让机器使用语言、形成抽象和概念、解决各种问题,如果AGI以某种方式「按期」实现,公众会有何反应?现在保留给人类,并提高自己」?
当时,大多数美国人对技术进步持乐观态度。在那个时代,快速发展的技术所取得的经济收益被广泛地重新分配(尽管肯定不公平,特别是在种族和性别方面)。尽管冷战的威胁迫在眉睫,但对大多数人来说,未来看起来比过去更加光明。
如今,这种再分配方式已经发生了逆转:穷人越来越穷,富人越来越富。
当人工智能被描述为「既不是人工的,也不是智能的」,而仅仅是人类智能的重新包装时,很难不从经济威胁和不安全的角度来解读这种批评。
在将关于AGI应该是什么和它是什么的争论混为一谈时,人类似乎违反了大卫·休谟的禁令,应该尽最大努力将「是」与「应该」问题分开。
但这是行不通的,因为什么是「应该」的辩论必须要诚实地进行。
AGI有望在未来几年创造巨大价值,但它也将带来重大风险。
到2023年,我们应该问的问题包括——「谁受益?」 「谁受到伤害?」 「我们如何才能最大化利益并最小化伤害?」以及「我们怎样才能公平公正地做到这一点?」
这些都是紧迫的问题,应该直接讨论,而不是否认通用人工智能的现实。
参考资料:
https://www.noemamag.com/artificial