都没人教，AI怎么就学会了写代码、打游戏，甚至跟人类谈情说爱？-希知网

划重点

1、与最初的预期相比，ChatGPT等人工智能工具的能力似乎更为强大，但人们对它们将如何改变世界却难以猜测，因为没人知道它们内部到底如何运作，这就像人类大脑那样神秘。
2、ChatGPT等聊天机器人依赖于大语言模型支持，而后者又依赖于名为神明网络的机器学习系统，其结构与人脑神经元系统相似。GPT等系统可以执行未接受过相关训练的任务，甚至具有“突发能力”。
3、LLM不仅具有编写计算机代码的能力，也可以执行代码。这表明，该系统不仅仅是在模仿互联网，同时也在进行自己的计算以得出正确的答案。
4、研究人员发现，神经网络下棋的方法与人类大脑思维相似，它们的“心灵之眼”中也有个虚拟棋盘，可以利用这个模型来评估走法。
5、尽管LLM有足够多的盲点，依然不符合通用人工智能(AGI)的标准，但它们可以被视为间接证据，表明我们距离通用人工智能不远了！

腾讯科技讯目前几乎没人知道ChatGPT以及与其相似的人工智能工具将如何改变世界，原因之一在于，我们几乎不知道它们内部到底发生了什么。其中有些系统的能力远远超出了它们被训练的预期能力，甚至就连它们的发明者也对此感到困惑。越来越多的测试表明，这些人工智能系统形成了真实世界的内部模型，就像人类大脑那样，外部很难理解。

布朗大学研究语言计算模型的计算机科学家埃莉·帕夫利克(Ellie Pavlick)正致力于对此做出解释。她说：“在我看来，如果我们不了解人工智能系统的工作原理，那么我们想要用它们做的一切，让它们变得更好或更安全，或者诸如此类的事情，似乎过于荒谬了。”

GPT“突发能力”震惊研究人员

在某种程度上，帕夫利克及其同事非常了解GPT（生成预训练转换器的缩写）和其他大语言模型（LLM）。这些模型依赖于被称为神经网络的机器学习系统，而后者在结构上大致模仿了人类大脑中相互连接的神经元。这些程序的代码相对简单，只占用几个屏幕。它设置了一个自动纠错算法，通过对海量互联网文本进行解析，然后选择最合适的词句来给出响应。

额外培训可以确保这类系统能以对话的形式给出结果。从这个意义上说，它所做的一切就是反刍它所学到的东西。用华盛顿大学语言学家艾米丽·本德尔(Emily Bender)的话来说，它就是一只“随机鹦鹉”。这个词是本德尔等人在名为《随机鹦鹉的危险：语言模型是否太大？》中提出的，用来形容大语言模型没有理解能力、容易出现幻觉等行为。它们只会制造语法上合理的字串或语句，并没有做到真正的理解。

但LLM也成功地在律师资格考试中取得了高分，用优美的语段解释希格斯玻色子，并试图破坏用户的婚姻。几乎没有人预料到，一个如此简单的自动校正算法会获得如此广泛的能力。

GPT和其他人工智能系统能够执行它们没有接受过相关训练的任务，甚至具备“突发能力”，这甚至让那些对LLM炒作持怀疑态度的研究人员都感到惊讶。圣达菲研究所人工智能研究员梅勒妮·米切尔(Melanie Mitchell)表示：“我不知道它们是如何做到这一点的，也不知道它们是否能以人类的方式更普遍地做到这一点，但它们的确对我的观念造成了冲击。”

蒙特利尔大学的人工智能研究员约书亚·本吉奥(Yoshua Bengio)说：“GPT等人工智能系统当然不仅仅是随机鹦鹉，它肯定会在某种程度上体现了世界的表征，尽管我不认为它与人类建立内部世界模型的方式很像。”

今年3月，在纽约大学举行的一次会议上，哥伦比亚大学的哲学家拉斐尔·米列尔（Raphaël millitre）又举了一个令人瞠目结舌的例子，用以展示LLM的能力。这些模型已经展示了编写计算机代码的能力，给人留下深刻印象，但并不太令人惊讶，因为互联网上有太多的代码可以模仿。

然而，米列尔进一步证明，GPT也可以执行代码。这位哲学家输入了用来计算斐波那契数列第83个数字的程序。“这是一种难度非常高的多步骤推理，”他说。但GPT做到了。然而，当米列尔直接要求说出斐波那契数列第83个数字时，GPT却错了。这表明，该系统不仅仅是在模仿互联网。相反，它是在进行自己的计算，以得出正确的答案。

虽然LLM在计算机上运行，但它本身并不是计算机。它缺乏基本的计算元素，比如工作记忆。在默认GPT本身不应该能够运行代码的情况下，它的发明者、科技初创公司OpenAI引入了专门的插件- ChatGPT可以在回答查询时使用的工具，让它能够运行代码。但米列尔的演示中并没有使用这个插件，而是假设机器通过利用其根据上下文解释单词的机制来临时记忆，这种情况类似于大自然如何重新利用现有的能力来实现新功能。

这种即兴发挥的能力表明，LLM发展出的内部复杂性远远超出了肤浅的统计分析。研究人员发现，这些系统似乎能够真正理解它们所学到的东西。

“侵入语言模型的大脑”

在上周的国际学习表征会议(ICLR)上发表的一项研究中，哈佛大学的博士生基尼斯·李（Kenneth Li）及其人工智能研究同事、麻省理工学院的阿斯本·霍普金斯（Aspen K. Hopkins）、东北大学的戴维·鲍（David Bau）以及哈佛大学的费尔南达·维萨梅斯(Fernanda visamugas)、汉斯佩特·普菲斯特（Hanspeter Pfister）以及马丁·瓦腾伯格（Martin Wattenberg），构建了小型GPT神经网络模型以便研究其内部工作原理。

他们在棋盘游戏《奥赛罗》(Othello)的数百万场比赛中训练它，以文本形式输入长序列的动作。他们的模型最终成了近乎完美的玩家。

为了研究神经网络如何编码信息，研究人员采用了蒙特利尔大学教授本吉奥和纪尧姆·阿兰(Guillaume Alain)在2016年设计的一种技术。他们构建了微型“探头”网络来逐层分析主神经网络，李将这种方法与神经科学方法进行了比较。他说：“这类似于我们把一个电子探针插入人脑。”

在人工智能的研究中，探头显示，它的“神经活动”与奥赛罗游戏棋盘的表现相匹配，尽管形式更为复杂。为了证实这一点，研究人员反向运行探头网络，将信息植入该网络，例如将游戏中的黑色标记棋子翻转为白色棋子。“基本上，我们侵入了这些语言模型的大脑，”李说。然而，神经网络也相应地调整了战略。

研究人员得出的结论是，神经网络玩《奥赛罗》的方式与人类大致相同：在它的“心灵之眼”中放置一个棋盘，并利用这个模型来评估走法。李说，他认为系统学会了这种技能，因为这是对其训练数据最简洁的描述。他补充道：“如果你面对的是一大堆游戏脚本，那么努力找出其背后的规则便是最好的解锁方法。”

神经网络这种推断外部世界结构的能力并不局限于简单的游戏动作，也会体现在对话中。来自麻省理工学院的贝琳达·李（Belinda Li）、马克斯韦尔·奈（Maxwell Nye）以及雅各布·安德烈亚斯（Jacob Andreas），研究了玩基于文本的冒险游戏的神经网络。

他们输入诸如“钥匙在宝箱里”之类的句子，然后是“你拿着钥匙”。通过探头网络，他们发现神经网络在自身内部编码了对应于“宝箱”和“你”的变量，每个变量都具有是否拥有钥匙的属性，并逐句更新这些变量。这个系统没有独立的方法来知道箱子或钥匙是什么，但它掌握了这个任务所需的概念。贝琳达·李说：“这个模型中隐藏着很多状态表征。”

利用海量数据寻找普适性规则

研究人员对LLM能够从文本中学习到的知识感到惊讶。例如，帕夫利克和她当时的博士生罗姆·帕特尔（Roma Patel）发现，这些网络从互联网文本中吸收了关于颜色的描述，并构建颜色的内部表征。当它们看到“红色”这个词时，不仅把它当作一个抽象的符号，而且把它当作与栗色、深红色、紫红色、铁锈等有特定关系的概念。

证明这一点有点棘手。研究人员没有将探头插入网络，而是研究了它对一系列文本提示的反应。为了验证它是否仅仅是对网上参考资料中的颜色关系进行重复，研究人员试图误导系统，告诉它红色实际上是绿色。然而，LLM系统不是像鹦鹉学舌那样给出错误的答案，而是适当改变了颜色评估机制，以保持正确的关系。

微软研究院的机器学习研究员塞巴斯蒂安·布贝克（Sébastien Bubeck）认为，为了执行自动校正功能，系统会寻找训练数据的基本逻辑。数据范围越广，系统发现的规则就越具有普适性。他说：“也许我们正看到巨大的飞跃，因为我们已经获得了多样性数据，这些数据足够多，以至于所有这些数据的唯一基本原则就是智能生物创造了它们。因此，解释所有这些数据的唯一方法就是让模型变得智能化。”

除了提取语言的潜在含义外，LLM还能够进行快速学习。在人工智能领域，“学习”这个术语通常是指密集计算的过程。在这个过程中，开发人员将神经网络暴露在数十亿字节的数据中，并调整其内部连接。当你在ChatGPT中输入查询时，网络应该是固定的。

不像人类，这类系统本不应该继续学习。然而，令人惊讶的是，LLM确实在从用户给出的提示中学习。这种能力被称为“情境学习”，这让人感到十分惊讶。人工智能公司SingularityNET的创始人本·戈泽尔(Ben Goertzel)表示：“这是一种不同的学习方式，以前人们并不真正理解它的存在。”

LLM如何学习的一个例子来自于人类与ChatGPT等聊天机器人的交互。你可以给系统举例，说明你希望它如何给出响应，它会服从。它的输出是由它最近看到的几千个单词决定的。给定这些单词，它所做的事情是由其固定的内部连接规定的，但单词序列仍然提供了某些变化。整个网站都致力于“越狱”提示，以克服系统的“护栏”，例如阻止系统告诉用户如何制作管道炸弹的限制。

有些人将系统越狱用于粗略的目的，而另一些人则利用它来引出更具创造性的答案。佛罗里达大西洋大学机器感知与认知机器人实验室的联席主席威廉·哈恩(William Hahn)说：“我认为，与没有特殊越狱提示的直接提问相比，它将更好地回答科学问题。它更擅长学习。”

另一种类型的情境学习是通过“思维链”提示进行的，这意味着要求神经网络阐明其推理的每一步，这是一种使其在需要多步骤的逻辑或算术问题上做得更好的策略。但米列尔的例子令人感到惊讶的是，神经网络在没有任何此类指导的情况下找到了斐波那契数。

2022年，谷歌研究院和苏黎世瑞士联邦理工学院的联合团队，展示了情境学习遵循与标准学习相同的基本计算过程，即所谓的梯度下降。这个程序没有编程，系统在没有帮助的情况下发现了它。谷歌研究部副总裁布莱斯·阿克斯(Blaise agera y Arcas)表示：“这需要一种学习技能。”事实上，他认为LLM可能还有其他尚未被发现的潜在能力。阿克斯说：“每次我们测试一种可以量化的新能力时，我们会发现其又出现了新能力。”

距离通用人工智能不远了？

尽管LLM有足够多的盲点，依然不符合通用人工智能(AGI)的标准，但对有些研究人员来说，这些新兴的能力表明，科技公司比乐观主义者想象的更接近通用人工智能。今年3月，戈泽尔在佛罗里达大西洋大学举行的一次深度学习会议上表示：“它们是间接证据，表明我们离通用人工智能可能不远了。”

OpenAI的插件为ChatGPT提供了有点像人脑的模块化架构。麻省理工学院的研究员安娜·伊万诺娃（Anna Ivanova）说：“将GPT-4(支持ChatGPT的LLM最新版本)与各种插件相结合，可能是通向类似人类专门能力的一条途径。”

但与此同时，研究人员担心，他们研究这些系统的窗口可能正在关闭。OpenAI没有透露它是如何设计和训练GPT-4的，部分原因是它陷入了与谷歌和其他公司的竞争。麻省理工学院的理论物理学家丹·罗伯茨(Dan Roberts)说：“业界的开放研究可能会减少，围绕着构建产品的研究将变得更加孤立。”

这种缺乏透明度不仅伤害了研究人员，也阻碍了人们理解人工智能技术热潮对社会影响的努力。圣达菲研究所人工智能研究员梅勒妮·米切尔说：“这些模型的透明度是确保安全的最重要标准之一。”

本文地址：https://www.cknow.cn/archives/24723

以上内容源自互联网，由百科助手整理汇总，其目的在于收集传播生活技巧，行业技能，本网站不对其真实性、可靠性承担任何法律责任。特此声明！

如发现本站文章存在版权问题，烦请提供版权疑问、侵权链接、联系方式等信息发邮件至candieraddenipc92@gmail.com，我们将及时沟通与处理。

都没人教，AI怎么就学会了写代码、打游戏，甚至跟人类谈情说爱？

相关推荐