都没人教,AI怎么就学会了写代码、打游戏,甚至跟人类谈情说爱?

都没人教,AI怎么就学会了写代码、打游戏,甚至跟人类谈情说爱?

划重点

1、与最初的预期相比,ChatGPT等人工智能工具的能力似乎更为强大,但人们对它们将如何改变世界却难以猜测,因为没人知道它们内部到底如何运作,这就像人类大脑那样神秘。
2、ChatGPT等聊天机器人依赖于大语言模型支持,而后者又依赖于名为神明网络的机器学习系统,其结构与人脑神经元系统相似。GPT等系统可以执行未接受过相关训练的任务,甚至具有“突发能力”。
3、LLM不仅具有编写计算机代码的能力,也可以执行代码。这表明,该系统不仅仅是在模仿互联网,同时也在进行自己的计算以得出正确的答案。
4、研究人员发现,神经网络下棋的方法与人类大脑思维相似,它们的“心灵之眼”中也有个虚拟棋盘,可以利用这个模型来评估走法。
5、尽管LLM有足够多的盲点,依然不符合通用人工智能(AGI)的标准,但它们可以被视为间接证据,表明我们距离通用人工智能不远了!

腾讯科技讯 目前几乎没人知道ChatGPT以及与其相似的人工智能工具将如何改变世界,原因之一在于,我们几乎不知道它们内部到底发生了什么。其中有些系统的能力远远超出了它们被训练的预期能力,甚至就连它们的发明者也对此感到困惑。越来越多的测试表明,这些人工智能系统形成了真实世界的内部模型,就像人类大脑那样,外部很难理解。

布朗大学研究语言计算模型的计算机科学家埃莉·帕夫利克(Ellie Pavlick)正致力于对此做出解释。她说:“在我看来,如果我们不了解人工智能系统的工作原理,那么我们想要用它们做的一切,让它们变得更好或更安全,或者诸如此类的事情,似乎过于荒谬了。”

GPT“突发能力”震惊研究人员

在某种程度上,帕夫利克及其同事非常了解GPT(生成预训练转换器的缩写)和其他大语言模型(LLM)。这些模型依赖于被称为神经网络的机器学习系统,而后者在结构上大致模仿了人类大脑中相互连接的神经元。这些程序的代码相对简单,只占用几个屏幕。它设置了一个自动纠错算法,通过对海量互联网文本进行解析,然后选择最合适的词句来给出响应。

额外培训可以确保这类系统能以对话的形式给出结果。从这个意义上说,它所做的一切就是反刍它所学到的东西。用华盛顿大学语言学家艾米丽·本德尔(Emily Bender)的话来说,它就是一只“随机鹦鹉”。这个词是本德尔等人在名为《随机鹦鹉的危险:语言模型是否太大?》中提出的,用来形容大语言模型没有理解能力、容易出现幻觉等行为。它们只会制造语法上合理的字串或语句,并没有做到真正的理解。

但LLM也成功地在律师资格考试中取得了高分,用优美的语段解释希格斯玻色子,并试图破坏用户的婚姻。几乎没有人预料到,一个如此简单的自动校正算法会获得如此广泛的能力。

GPT和其他人工智能系统能够执行它们没有接受过相关训练的任务,甚至具备“突发能力”,这甚至让那些对LLM炒作持怀疑态度的研究人员都感到惊讶。圣达菲研究所人工智能研究员梅勒妮·米切尔(Melanie Mitchell)表示:“我不知道它们是如何做到这一点的,也不知道它们是否能以人类的方式更普遍地做到这一点,但它们的确对我的观念造成了冲击。”

蒙特利尔大学的人工智能研究员约书亚·本吉奥(Yoshua Bengio)说:“GPT等人工智能系统当然不仅仅是随机鹦鹉,它肯定会在某种程度上体现了世界的表征,尽管我不认为它与人类建立内部世界模型的方式很像。”

今年3月,在纽约大学举行的一次会议上,哥伦比亚大学的哲学家拉斐尔·米列尔(Raphaël millitre)又举了一个令人瞠目结舌的例子,用以展示LLM的能力。这些模型已经展示了编写计算机代码的能力,给人留下深刻印象,但并不太令人惊讶,因为互联网上有太多的代码可以模仿。

然而,米列尔进一步证明,GPT也可以执行代码。这位哲学家输入了用来计算斐波那契数列第83个数字的程序。“这是一种难度非常高的多步骤推理,”他说。但GPT做到了。然而,当米列尔直接要求说出斐波那契数列第83个数字时,GPT却错了。这表明,该系统不仅仅是在模仿互联网。相反,它是在进行自己的计算,以得出正确的答案。

虽然LLM在计算机上运行,但它本身并不是计算机。它缺乏基本的计算元素,比如工作记忆。在默认GPT本身不应该能够运行代码的情况下,它的发明者、科技初创公司OpenAI引入了专门的插件- ChatGPT可以在回答查询时使用的工具,让它能够运行代码。但米列尔的演示中并没有使用这个插件,而是假设机器通过利用其根据上下文解释单词的机制来临时记忆,这种情况类似于大自然如何重新利用现有的能力来实现新功能。

这种即兴发挥的能力表明,LLM发展出的内部复杂性远远超出了肤浅的统计分析。研究人员发现,这些系统似乎能够真正理解它们所学到的东西。

“侵入语言模型的大脑”

在上周的国际学习表征会议(ICLR)上发表的一项研究中,哈佛大学的博士生基尼斯·李(Kenneth Li)及其人工智能研究同事、麻省理工学院的阿斯本·霍普金斯(Aspen K. Hopkins)、东北大学的戴维·鲍(David Bau)以及哈佛大学的费尔南达·维萨梅斯(Fernanda visamugas)、汉斯佩特·普菲斯特(Hanspeter Pfister)以及马丁·瓦腾伯格(Martin Wattenberg),构建了小型GPT神经网络模型以便研究其内部工作原理。

他们在棋盘游戏《奥赛罗》(Othello)的数百万场比赛中训练它,以文本形式输入长序列的动作。他们的模型最终成了近乎完美的玩家。

为了研究神经网络如何编码信息,研究人员采用了蒙特利尔大学教授本吉奥和纪尧姆·阿兰(Guillaume Alain)在2016年设计的一种技术。他们构建了微型“探头”网络来逐层分析主神经网络,李将这种方法与神经科学方法进行了比较。他说:“这类似于我们把一个电子探针插入人脑。”

在人工智能的研究中,探头显示,它的“神经活动”与奥赛罗游戏棋盘的表现相匹配,尽管形式更为复杂。为了证实这一点,研究人员反向运行探头网络,将信息植入该网络,例如将游戏中的黑色标记棋子翻转为白色棋子。“基本上,我们侵入了这些语言模型的大脑,”李说。然而,神经网络也相应地调整了战略。

研究人员得出的结论是,神经网络玩《奥赛罗》的方式与人类大致相同:在它的“心灵之眼”中放置一个棋盘,并利用这个模型来评估走法。李说,他认为系统学会了这种技能,因为这是对其训练数据最简洁的描述。他补充道:“如果你面对的是一大堆游戏脚本,那么努力找出其背后的规则便是最好的解锁方法。”

神经网络这种推断外部世界结构的能力并不局限于简单的游戏动作,也会体现在对话中。来自麻省理工学院的贝琳达·李(Belinda Li)、马克斯韦尔·奈(Maxwell Nye)以及雅各布·安德烈亚斯(Jacob Andreas),研究了玩基于文本的冒险游戏的神经网络。

他们输入诸如“钥匙在宝箱里”之类的句子,然后是“你拿着钥匙”。通过探头网络,他们发现神经网络在自身内部编码了对应于“宝箱”和“你”的变量,每个变量都具有是否拥有钥匙的属性,并逐句更新这些变量。这个系统没有独立的方法来知道箱子或钥匙是什么,但它掌握了这个任务所需的概念。贝琳达·李说:“这个模型中隐藏着很多状态表征。”

利用海量数据寻找普适性规则

研究人员对LLM能够从文本中学习到的知识感到惊讶。例如,帕夫利克和她当时的博士生罗姆·帕特尔(Roma Patel)发现,这些网络从互联网文本中吸收了关于颜色的描述,并构建颜色的内部表征。当它们看到“红色”这个词时,不仅把它当作一个抽象的符号,而且把它当作与栗色、深红色、紫红色、铁锈等有特定关系的概念。

证明这一点有点棘手。研究人员没有将探头插入网络,而是研究了它对一系列文本提示的反应。为了验证它是否仅仅是对网上参考资料中的颜色关系进行重复,研究人员试图误导系统,告诉它红色实际上是绿色。然而,LLM系统不是像鹦鹉学舌那样给出错误的答案,而是适当改变了颜色评估机制,以保持正确的关系。

微软研究院的机器学习研究员塞巴斯蒂安·布贝克(Sébastien Bubeck)认为,为了执行自动校正功能,系统会寻找训练数据的基本逻辑。数据范围越广,系统发现的规则就越具有普适性。他说:“也许我们正看到巨大的飞跃,因为我们已经获得了多样性数据,这些数据足够多,以至于所有这些数据的唯一基本原则就是智能生物创造了它们。因此,解释所有这些数据的唯一方法就是让模型变得智能化。”

除了提取语言的潜在含义外,LLM还能够进行快速学习。在人工智能领域,“学习”这个术语通常是指密集计算的过程。在这个过程中,开发人员将神经网络暴露在数十亿字节的数据中,并调整其内部连接。当你在ChatGPT中输入查询时,网络应该是固定的。

不像人类,这类系统本不应该继续学习。然而,令人惊讶的是,LLM确实在从用户给出的提示中学习。这种能力被称为“情境学习”,这让人感到十分惊讶。人工智能公司SingularityNET的创始人本·戈泽尔(Ben Goertzel)表示:“这是一种不同的学习方式,以前人们并不真正理解它的存在。”

LLM如何学习的一个例子来自于人类与ChatGPT等聊天机器人的交互。你可以给系统举例,说明你希望它如何给出响应,它会服从。它的输出是由它最近看到的几千个单词决定的。给定这些单词,它所做的事情是由其固定的内部连接规定的,但单词序列仍然提供了某些变化。整个网站都致力于“越狱”提示,以克服系统的“护栏”,例如阻止系统告诉用户如何制作管道炸弹的限制。

有些人将系统越狱用于粗略的目的,而另一些人则利用它来引出更具创造性的答案。佛罗里达大西洋大学机器感知与认知机器人实验室的联席主席威廉·哈恩(William Hahn)说:“我认为,与没有特殊越狱提示的直接提问相比,它将更好地回答科学问题。它更擅长学习。”

另一种类型的情境学习是通过“思维链”提示进行的,这意味着要求神经网络阐明其推理的每一步,这是一种使其在需要多步骤的逻辑或算术问题上做得更好的策略。但米列尔的例子令人感到惊讶的是,神经网络在没有任何此类指导的情况下找到了斐波那契数。

2022年,谷歌研究院和苏黎世瑞士联邦理工学院的联合团队,展示了情境学习遵循与标准学习相同的基本计算过程,即所谓的梯度下降。这个程序没有编程,系统在没有帮助的情况下发现了它。谷歌研究部副总裁布莱斯·阿克斯(Blaise agera y Arcas)表示:“这需要一种学习技能。”事实上,他认为LLM可能还有其他尚未被发现的潜在能力。阿克斯说:“每次我们测试一种可以量化的新能力时,我们会发现其又出现了新能力。”

距离通用人工智能不远了?

尽管LLM有足够多的盲点,依然不符合通用人工智能(AGI)的标准,但对有些研究人员来说,这些新兴的能力表明,科技公司比乐观主义者想象的更接近通用人工智能。今年3月,戈泽尔在佛罗里达大西洋大学举行的一次深度学习会议上表示:“它们是间接证据,表明我们离通用人工智能可能不远了。”

OpenAI的插件为ChatGPT提供了有点像人脑的模块化架构。麻省理工学院的研究员安娜·伊万诺娃(Anna Ivanova)说:“将GPT-4(支持ChatGPT的LLM最新版本)与各种插件相结合,可能是通向类似人类专门能力的一条途径。”

但与此同时,研究人员担心,他们研究这些系统的窗口可能正在关闭。OpenAI没有透露它是如何设计和训练GPT-4的,部分原因是它陷入了与谷歌和其他公司的竞争。麻省理工学院的理论物理学家丹·罗伯茨(Dan Roberts)说:“业界的开放研究可能会减少,围绕着构建产品的研究将变得更加孤立。”

这种缺乏透明度不仅伤害了研究人员,也阻碍了人们理解人工智能技术热潮对社会影响的努力。圣达菲研究所人工智能研究员梅勒妮·米切尔说:“这些模型的透明度是确保安全的最重要标准之一。”

本文地址:https://www.cknow.cn/archives/24723

以上内容源自互联网,由百科助手整理汇总,其目的在于收集传播生活技巧,行业技能,本网站不对其真实性、可靠性承担任何法律责任。特此声明!

如发现本站文章存在版权问题,烦请提供版权疑问、侵权链接、联系方式等信息发邮件至candieraddenipc92@gmail.com,我们将及时沟通与处理。