关于谷歌研究员“走火入魔”事件的评论:感知,是当前AI行业的错误讨论

责任编辑为约3499字,建议写作7两分钟

责任编辑介绍了相关Google技师 Blake Lemoine 观点的探讨和深思。

近日,相关Google技师 Blake Lemoine 的该文、采访和其他类型的报道早已满天飞、不计其数。即使 Lemoine 对外声称,人工智慧(AI)大词汇数学模型 LaMDA 在与使用者谈话的过程中具有了交互能力,甚至像两个七八岁的孩子。

图|Google技师 Blake Lemoine(来源:The Washington Post)

在写作了相关这一热门话题的数百种相同的观点后,我不得不说,媒体对现阶段 AI 控制技术的炒作早已(有点)沮丧了。很多人都在探讨为什么广度数学模型并非有交互的或有觉悟的。与几年前相比,这是两个进步,即使当时媒体还在制造荒谬的故事,称 AI 系统发明者了自己的词汇,接手了人类文明的所有组织工作,并已经开始加速向通用型人工智慧(AGI)发展。

但,人们已经开始探讨交互和觉悟的这一事实,也再次强调了两个关键的观点:

尽管如今的大词汇数学模型显得愈来愈有威胁性,但依然会被生物学家们在相同公开场合指出这样或那样的根本瑕疵

。自 20 世纪 60 年代 ELIZA 闲聊机器出现以来,AI 迷惑人类文明(AI fooling humans)的热门话题就一直在被探讨,但今天的大词汇数学模型确实是在另两个微观上。如果你不知道词汇数学模型是如何组织工作的,Lemoine 与 LaMDA 的谈话看上去是很诡异的——即使那些谈话是被经过精心设计挑选出和编辑过的。

但,交互和觉悟并并非相关大词汇数学模型和现阶段 AI 控制技术的最好探讨,更关键的探讨应该是人类文明兼容性(compatibility)和信赖(trust),特别是当那些控制技术正愈来愈数处软件系统到人类文明日常生活插件而后。

大词汇数学模型,不会人类文明词汇

在往后两周,数学模型和大词汇数学模型的组织工作原理早已被探讨两遍了。在这首诗中,我将从人类文明词汇开始,对现阶段这种情况得出两个更宏观经济(zoomed-out)的观点。

对于人类文明来说,词汇是传递我们神经系统中发生的复杂、布季夫公益活动的一类手段。例如,当两个兄弟在聊天时,其中两个说爸爸,那个词与神经系统相同足部的许多公益活动相关,包括对爸爸的声音、脸、感觉的梦境,以及从远方的往后到最近的相同历经。但事实上,她们神经系统中的表现方式可能存在巨大差别,这依赖于她们各自的历经。然而,爸爸那个词提供了一类简约的、有指标性的平方根,可以帮助她们在同两个概念上达成一致一致。

当你在与其他人的谈话中使用爸爸那个词时,历经和梦境之间的差别就会显得更大。但,你们还是基于头脑中共有的概念达成一致了共识。

把词汇想象成一类有助于把神经系统中的海量信息传递给另两个人的算法。从环境中的物理互动到与他人的社会互动,词汇的进化与我们在世界上的历经息息相关。

词汇建立在我们在世界上的共同历经之上。孩子们甚至在说出第两个单词之前就知道重力、维度、物体的物理一致性,以及痛苦、悲伤、恐惧、家庭和友谊等人类文明和社会中的概念。没有那些历经,词汇就没有意义。这就是为什么词汇通常会忽略谈话者共享的常识和信息。另一方面,分享经验和梦境的程度将决定你与另两个人交流的广度。

相比之下,大词汇数学模型没有物理和社会经验。它们只是接受了数十亿个单词的训练,并学会通过预测下两个单词序列来回应提示。这种方法在往后几年中取得了巨大的成果,特别是在引入了 transformer 架构之后。

那么,

transformer 是如何做出令人信服的预测的

?它们首先会将文本转换为token和嵌入(embedding),即布季夫空间中单词的数学表示。然后,对嵌入进行处理以添加其他维度,比如文本序列中单词之间的关系以及它们在句子和段落中的作用。通过足够多的示例,那些嵌入可以创建单词在序列中应该如何出现的良好近似。transformer 架构之所以特别受欢迎,是即使它是可扩展的:它的准确性随着它显得更大、接收更多数据而提高,而且它们大多可以通过无监督学习进行训练。

但根本的区别仍然存在

。数学模型通过将词汇转化为嵌入来处理词汇。而对人类文明来说,词汇是思想、感觉、梦境、物理体验和许多其他我们尚未发现的相关神经系统的东西的嵌入。

因此,尽管 transformer、大词汇数学模型、广度数学模型等取得了巨大的进步,但依然离人类文明词汇还很远。

AI,可以被信赖吗?

例如,功能主义者可能会认为数学模型和大词汇数学模型是有觉悟的,即使它们或多或少表现出与我们期望从人类文明身上看到的同类行为,尽管它们建立在相同的基础上。但其他人可能并不会认同,她们认为有机物才是觉悟存在的必要条件,而数学模型永远不会有觉悟。

然而,两个更实际的问题是,

现阶段的数学模型与人类文明思维的兼容性有多高,在关键应用场景上能否被人类文明信赖

?这是两个关键的议题,即使大词汇数学模型大多会被公司拿去商用。

例如,只要经过足够多的训练,黑猩猩就可能学会开车。但在有行人正将穿过的道路上,你会安心让它开车吗?你不会,即使你知道,不管黑猩猩多么聪明,它们的思维方式和人类文明也不一样,无法胜任涉及人身安全的任务。

同样,鹦鹉也有能力学会一些短语,但你会让它做你的客户服务代理吗?可能也不会。

即使涉及到人类文明,认知障碍也会使一些人群失去从事需要人际交往能力或涉及人类文明安全的组织工作和任务的资格。在很多情况下,那些人能够流利地读、写、说,并在长时间的谈话中保持言行一致和合乎逻辑。我们不会质疑她们的交互能力、觉悟或人格。但我们知道,由于她们患有疾病,她们的某些事情上作出的决定可能会不一致和不可预测。

关键的是

,你是否可以相信她们会像普通人一样思考和作出决定

。在很多情况下,我们信赖那些身兼重任的人们,即使她们的感官系统、常识知识、感觉、目标和奖励与我们的基本一致,即使她们不会说我们的词汇。

那么,回到近期事件上,我们对 LaMDA 又了解多少呢?首先,它交互世界的方式与我们相同。它的词汇知识不建立在与我们相同的经验之上。它的常识性知识建立在两个不稳定的基础上,即使没有人能保证大量的文本会涵盖我们在词汇中忽略的所有东西。

考虑到这种不兼容性,无论 LaMDA 和其他大词汇数学模型在生成文本输出方面有多好,你还能相信它们到什么程度呢?两个友好、有趣的闲聊机器程序,只要不把谈话引向一些敏感热门话题,就可能并非两个坏主意。搜索引擎也是大词汇数学模型的两个很好的应用领域(Google近年来一直在搜索中使用 BERT)。但,你能把开放式客户服务闲聊机器或银行顾问等敏感任务交给它们吗?即使它们早已接受过大量相关谈话记录的培训或微调。

在我看来,我们需要特定于

插件的基准(application-specific benchmark)来测试大词汇数学模型的一致性(consistency),以及它们在相同领域与人类文明常识的兼容性。当涉及到真正的插件时,应该始终有明确定义的边界,来确定在何处终止大词汇数学模型的谈话, 并交给人类文明操作员。

对 AI,要足够小心

实际上,人类文明智能(human intelligence)被用来找到正确的问题,而 AI 则被用来以最有效的方式解决那些问题。

我们早已一次又一次地看到,计算机能够找到解决复杂问题的捷径,而不需要具备人类文明的认知能力,而且早已在跳棋、国际象棋、围棋、编程比赛、蛋白质折叠和其他定义明确的问题中取得了成功。

自然词汇在某些方面与 AI 早已解决的所有其他问题相同,但也相似。

一方面,transformer 和大词汇数学模型早已证明,它们不需要像人类文明那样,先探索世界、了解世界的基本规则,然后才能在共同的知识基础上获得与他人互动的词汇,它们可以直接产生令人印象深刻的结果;另一方面,它们缺乏人类文明在学习词汇过程中产生的经验。

尽管大词汇数学模型可以很好地解决定义明确的词汇相关问题,但它们与人类文明词汇处理的兼容性是非常有限的。因此,在信赖它们这件事上,我们还是要足够小心。

参考资料:

“Sentience” is the wrong discussion to have on AI right now

https://www.reddit.com/r/artificial/comments/vgl1so/sentience_is_the_wrong_discussion_to_have_on_ai/

https://www.washingtonpost.com/technology/2022/06/11/Google-ai-lamda-blake-lemoine/

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 290004051@qq.com 举报,一经查实,本站将立刻删除。
如若转载,请注明出处:https://www.wuctw.com/15864.html