百度版ChatGPT，等待奇点时刻-希知网

在中国市场上最高调“All in AI”的百度，能应战ChatGPT吗？

微软又用 Open AI 轰炸了全球网民的视线。早有预告的一场联合，微软旗下浏览器 bing 和 Open AI 的人工智能在产品层面完成了融合。

人们热烈而兴奋地讨论 ChatGPT，从它令人惊叹的语言生成能力，到非常传奇的创始人之一 Sam Altman，到背后使用的 Transformer 大模型，到大力出奇迹的数据预训练，到 ChatGPT 带来了哪些商业新机遇……

网友对 AI 的热情如海啸般涌来，甚至远超业内人士的预期。在 ChatGPT 刚刚火起来时，一位这个领域的创业者认为，几天后这个产品就会被大家抛到脑后。

而这些讨论中，中国的 AI 从业公司，不是被二级市场激情炒作，直到成为难以为继的泡沫；就是被放在一束批评讽刺的聚光灯下，作为“别人家小孩”的对照组。

百度的位置尤其尴尬，它同时遭遇了这两种待遇。

但抛开狂热和恐慌这两重滤镜，百度真的像有些业内人士说的那样，距离海外头部同行有2年以上的差距吗？百度在 AI 的研究进度，技术能力和商业落地的真实情况到底如何？大模型的能力涌现，就像奇点爆发，那么属于百度的奇点时刻还要多久才来？

类Chat GPT的较量

所有的目光都被聚焦在对话形式的 AIGC。原本克制的 AI 大厂们突然迎来紧迫感，他们必须在类 ChatGPT 产品中证明自己的能力。

谷歌最先发布了基于其 LaMDA 模型的对话机器人 Bard，从其模型来看，Bard 较 ChatGPT 最大的优势在于它能接入外部网络，“提供新鲜、高质量的回复”。

但在北京时间 2 月 8 日晚的发布会上，Bard 的演示视频中出现了一条令人尴尬的 bug，在被问到“如何向 9 岁的孩子介绍 NASA 的詹姆斯·韦伯太空望远镜的新发现”，Bard 给出了一条远称不上“新发现”的答案。尽管 ChatGPT 也会犯错，但人们更关注它能做的事情，处于应战位置的巨头并不享有这种宽容。这一错误，令谷歌的股价当日暴跌 7.68%，市值蒸发了超过 1000 亿美元。

百度也处于这样的位置。

百度紧接着宣布推出“文心一言”（ERNIE Bot），产品将在今年三月份完成内测，面向公众开放。好奇的中国网民迅速发现了百度在 2021 年曾发布过的另一对话机器人 Plato，试图从中对比百度的 AI 实力。

比如，即刻用户@刘飞在与 Plato 进行了大段对话，Plato 的回答能够做到照应上文，并构成一定的逻辑。但 Plato 的回答一般都很简短，比如被问到元宵和汤圆区别，Plato 回答“元宵是滚的，汤圆是包的”，再被追问时，答案就逐渐离谱了起来，“一个有汤一个没汤”，“一个能吃一个不能吃”，“元宵炸着吃汤圆煮着吃”……

对话之后，用户们发现，Plato 总能给出回答，但往往只有一句，且插科打诨、抬杠、顾左右而言他。

尽管在 2021 年的全球对话技术顶赛 DSTC10 中，PLATO-XL 拿下了多个冠军，但相较如今 ChatGPT 的出色对话能力，Plato 的表现，根本不是同重量级的选手。

那么对话机器人表现差异的背后，AI 实力的差距有多大呢？

据百度主任研发架构师吴文权去年 10 月接受媒体采访时透露的信息，Plato 模型迭代了三次，一开始带有“隐变量”的训练，根据多轮对话上文（Context），识别到隐含的意图是什么，而后根据概率生成回复（Response）。而到了最新的 Plato XL 模型，一些技术性的设计比如隐变量被去掉了，模型更简约了，可以节约训练资源、加快训练速度，“去掉隐变量会对效果有一些损失，但我们发现随着规模的的增大，影响会越来越小。”

Plato XL的训练规模显著扩大

在 Plato 模型升级的进程中，随着训练数据、参数规模的增加，训练技术本身的雕饰似乎不那么重要了。据吴文权称，在 PLATO-XL 中，没有隐变量，因此也没有再使用评估模块去评估回复的质量。

这一点跟 GPT-3 的训练中使用 RLHF（人类反馈强化学习），也出现了区别。

图来自科技博主夕小瑶

Plato 参数号称达到了 110 亿，属于当时领先的参数体量，但在 2021 年之后，就没有公开的模型升级或数据预训练消息了。

截至 2 月 8 日，20 社与 Plato 再次对话，该机器人表示，关停了服务，请用户等待它的兄弟应用“文心一言”问世。

但 Plato 不代表百度在 AI 领域文字生成的最好能力。

Plato 是基于百度的文心大模型进行训练的，但 Plato 的能力显然更受限。据百度官方的消息，在2021年底，百度与鹏城联合发布的“鹏城-百度·文心”大模型（ERNIE 3.0 Titan），参数规模达到 2600 亿，是目前全球最大中文单体模型，在 60 多项任务上取得最好效果。

这一参数规模甚至比 GPT 3 的 1750 亿还要大。

大模型之争

但问题又来了。

针对某一单独的模型来说，参数规模，有时会扮演质变到量变过程中的最大变量。在 2022 年的一篇论文《 Emergent Abilities of Large Language Models 》中，谷歌、斯坦福大学和 DeepMind 等机构的学者联合证实，复杂推理、知识推理等一些能力只存在于大型模型中，而不存在于较小的模型中，这是大模型的突现能力（ emergent abilities）。

图片来自于 Wei. et. al. 2022. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models。当模型规模变大，模型的思维链有很明显的提升

但在大模型们的参数规模都军备竞赛式地攀升到了大几百亿、千亿时，模型本身和训练方式的差异，突然出现了分野。

GPT 的路线本身，其实就像一场技术路线的押注胜出。在此前大型语言模型（Large Language Model）的研发中，2018 年逐渐演化出了两个预训练模型主流方向，谷歌提出的 BERT 和 OpenAI 坚守的 GPT。在很长一段时间里，BERT 在自然语言理解类任务中的表现比 GPT 更好，是 NLP 领域被更多押注的方向。

最最简化来说，BERT 是蒙住（mask）一个语言片段，让模型根据前后文双向进行猜测，不断训练提高猜测的概率。而 GPT 则是按照人类输出文本的方式，从左到右进行预测，称为“自回归”。

而百度的文心（Ernie）大模型就是 BERT 路线上的模型。通过进行不同的 mask 训练策略，文心大模型的表现在其出炉时的评价标准下，可谓是简单、直接且有效。ERNIE 3.0 当时在国际权威的复杂语言理解任务评测 SuperGLUE 榜单上一度登上榜首。（当然，SuperGLUE 评测标准本身也存在争议，包括无法反应数据集的缺陷偏向、任务设计武断等。）

Ernie目前在GLUE榜单排名第五

但 GPT-3.5 出现后，模型智能表现上的鸿沟骤然被拉大。艾伦人工智能研究院 (Allen Institute for AI) 符尧、彭昊和 Tushar Khot 撰文表示，ChatGPT/GPT-3.5 是一种划时代的产物，它与之前常见的语言模型 (Bert/Bart/T5) 的区别，几乎是导弹与弓箭的区别。GPT 路线的风头也一下超过了其他路线。

现在回顾，GPT-3.5 的能力涌现，更像一种突变。在 GPT-3 的训练中，Open AI 就已经进行了大规模的预训练，在有 3000 亿单词的语料上预训练出拥有 1750 亿参数的模型。但 GPT-3 的智能程度相较于当下 ChatGPT 的水平，远远不如。直到后续小数据量训练过程中的指令微调 (instruction tuning)和RLHF (reinforcement learning with human feedback，人类反馈强化学习) ，解锁了 GPT-3.5 如今出色的对话能力。

是的，研究人员们用解锁（unlock）去表述模型能力的提升，背后的意涵是，大参数模型中已经蕴含了这些能力，只是需要适当的方式去唤醒它。

GPT-3.5 被指令微调分化出了不同的技能树，其中 ChatGPT 模型更擅长对话，这是牺牲了几乎所有的上下文学习的能力，来换取了零样本学习（zero-shot learning）能力——模拟人类的推理方式来识别从未见过的新事物，来与人类对齐（alignment），于是 ChatGPT 的对话体验才会那么丝滑。OpenAI 的作者称这种性能牺牲为 “对齐税” (alignment tax)。

OpenAI 在产品上的率先成熟，让原本就激烈的竞争进入白热化。谷歌原本拥有更多 AI 研究成果储备的，但还没有急着将 AI 研究产品化，如今变得被动。谷歌之所以着急，更多是因为对手产品对自己广告收入的威胁。

资本市场对 Bard 首秀的嘘声，在 20 社看来其实过激了。手握两大 LLM 模型 LamDA 和 PaLM，其中 PaLM 也是单向语言模型，谷歌大模型在能力储备上也已经相当成熟。

身处自动驾驶行业的沈卓然认为，拥有 5400 亿参数的 PaLM 在学术任务上的结果，优于 GPT-3.5，能够和 GPT-3.5 相比的基础模型只有 PaLM（最新版可能还稍微强一点），他告诉 20 社，目前能够和 ChatGPT 在对话优化方面相比的只有 LaMDA。沈卓然目前在通用汽车旗下的自动驾驶公司 Cruise 工作（关于ChatGPT的看法，只是他个人观点，不代表公司）。

“但是谷歌的问题在于 LaMDA 和 PaLM 是两个团队分别做的，这两方面的优势并没有结合起来。Bard 目前只是基于 LaMDA 的，具体情况如何还有待观察。”

那么对比这几个最前沿的 LLM 模型，选择了 BERT+fine tuning 路线的百度处于什么位置呢？

如果对比大模型的参数规模，2021 年底，百度与鹏城联合发布的“鹏城-百度·文心”大模型（ERNIE 3.0 Titan）号称参数规模达到 2600 亿，是目前全球最大中文单体模型。这一规模比 GPT-3 的 1750 亿还要大。

但参数仅是一个因素，华为诺亚方舟实验室语音语义首席科学家刘群看来，基础模型本身有差距，虽然我们训练了很多万亿模型或者是几千亿的模型，但训练的充分程度，是远远不够的。

百度的大模型文心 ERNIE 3.0 也采用了行业前沿的训练技术，包括无监督学习，从而有效率地提高训练数据规模；自回归和自编码网络被融合在一起，进行多范式统一的预训练，因此可以兼具理解、生成和零样本学习的能力，这为百度加入这场 AIGC 大比拼提供了支持。

但综合起来看，一位硅谷的 AI 从业者认为，谷歌和 OpenAI 技术路线最主要的公开分歧是 OpenAI 非常重视 RLHF，而谷歌认为应该通过进一步扩大指令微调（Flan）来提升性能。但这个区别目前来说对于基础模型影响不大，主要是对对话系统影响大。

“大语言模型是一个很难的技术，Meta 追赶了两年多才达到 OpenAI 2020 年的水平，而微软似乎已经放弃了。国内有相关项目的公司，感觉还在（OpenAI）2020年左右的水平。”

在百度集团副总裁吴甜看来，文心大模型的训练中还有 3 个难题，第一个难点在于可用知识稀疏，怎么用无监督方法从海量数据自动提炼出可用的知识；第二个难点在于大模型怎样能学了新知识不忘旧知识；第三个难点，怎样把已结构化表示的知识和数据中的非结构化隐式知识进行统一，让大模型充分地学习进去。

摆在百度面前的情况是，文心大模型路线已定，基础理论、研发上的困难很明确，要做的就是顺着这条路不断往前推。

百度的奇点时刻会到来吗？

从 2013 年建立美国研究院算起，百度投身 AI 有十年了。从 2017 年高调宣布 “all in AI” 算起，百度押注 AI 产业也有 6 年了。站在当时的时间坐标上，百度错过了移动互联网的头部红利，它试图引领下一轮技术浪潮AI的革命；而在漫长的等待途中，百度又错过了 AI 与移动互联网结合的最大机会——推荐算法/短视频。

在过去两年互联网公司遭遇寒流时，长时间依托于大厂供养的 AI Lab “无米下炊”，国内各个厂商 AI Lab 研究和业务产出之间的矛盾越发突出，商业落地的 kpi 被摆上台面，2020-2021 年甚至出现了 AI Lab 科学家离职潮。AI 四小龙也因投入产出过低，连年巨亏，估值大减。

百度称自己在过去 10 年投入了 1000 亿研发资金，但 AI 的投入并未在财报中带来明确、可观的利润。

就在这种弥漫着沮丧的行业氛围中，AIGC 点燃了另一波 AI 热潮。数据公司 PitchBook 称，2022 年，风投已经向声称专攻AI的公司投入了 670 亿美元。业界开始把目光聚焦到 AIGC 以及背后的大模型研究上，百度也感知到了这阵风。

在 OpenAI CEO Sam Altman 的设想中，AI 大模型发展的最终目标是 AGI，当这一目标实现的时候，人类经济社会将实现“万物的摩尔定律”，即万物的智能成本无限降低，人类的生产力与创造力得到解放。这是一个带有理想色彩的终极设想。

中国公司在其中会扮演什么角色？由于众所周知的原因，ChatGPT 如今只运行于另一个平行世界。国内市场上 AI 产业如今的竞争格局就像那句登山者的格言“山就在那里”，等着有能力者去登顶。

即便数据很难比得过 GPT-3 的优质海量，即便算力也许会受到半导体卡脖子的影响，即便大模型本身需要提高，即便“文心一格”的图片生成艺术水准比不上 Midjourney……国内的 AI 公司们也需要去蹚出一条自己的路来。

经过这么多年的投入，百度在 AI 领域积累了相对全面的能力。李彦宏在今年 Create 大会开幕演讲中提到，百度是如今少有的同时具备人工智能四层能力的公司，包括芯片层的自研昆仑 AI 芯片，框架层的飞桨深度学习框架，模型层的文心大模型和应用层的搜索、自动驾驶、智能家居等产品。

▫自研昆仑 AI 芯片，据百度官方数据，昆仑芯 2 代使用 7nm 工艺，已完成无人驾驶场景端到端性能适配；

▫框架层的飞桨深度学习框架，在业界更主流的 TensorFlow 和 Pytorch 之外，也逐渐建立了在学界业界的影响力，据媒体报道的数据，现在已拥有 535 万开发者，服务了 20 万家企事业单位，创建了 67 万个模型；

▫文心大模型发布于 2019 年，到 2021 年升级到规模更大更智能的 3.0；

▫在应用层，百度有搜索、自动驾驶等产品。

在 AI 大模型这个竞争领域，是有马太效应的。在建立训练自己的模型后，吸引更多的开发者、用户来参与自己的生态，才能获得更大的优势。

比如 Stability AI 将其图片生成大模型 Stable Diffusion 开源，拓宽了整个行业宽度。OpenAI 很早就开放了 API，像 Duolingo，Notion 以及拿到 1.25 亿美元融资的 Jasper 都是调用其 API 的落地案例，最新还为 BuzzFeed 提供个性化测试、为 Amazon 解决客户和工程师技术难题等。基于 OpenAI 的创业也成为社交媒体上的热议话题。

与之形成对比的是，百度从 2019 年发布文心大模型，到 2021 年升级后开始支持 AIGC，文心在 C 端的感知非常薄弱。

据彭博社，百度 CEO 李彦宏在去年 12 月一次内部谈话中提到 ChatGPT 时称，“我很高兴，我们每天都在思考的技术能够吸引这么多人的注意。这并不容易。”李彦宏对于 AIGC 面向 C 端商业化并不乐观，但人工智能发展在“技术层面和商业应用层面，都有方向性改变”，这个热潮是一个可以借的东风。

百度顺势推出“文心一言”。这一产品据称从去年 9 月就开始训练，将在今年 3 月面世。对比异军突起的 ChatGPT，其训练过程是数据规模小得多的指令微调和 RLHF，短时间解锁了强大的对话能力。类似的情况会不会发生在文心一言的训练过程中，我们无法预测。

文心一言除了能对搜索引擎提供加持，在沈卓然来，相较于海外市场对谷歌 Bard 初亮相的不宽容，国内用户们只能玩一言，作为 ChatGPT 的替代品，只要质量还说得过去，大模型对话系统一开始应该会受欢迎。他认为，特别是刚刚接触时，大多数人会十分喜欢这个产品带来的新鲜感，在 ChatGPT 刚刚上线时，他想体验一下这个产品，结果玩了一个周末。他目前还没有体验过Bard或者一言。

而在 B 端，除了开放 API，据百度集团副总裁吴甜的说法，“文心大模型一边做技术创新，一边做落地应用”，收益一方面来源于在百度自身业务中的应用，另一方面对行业客户具体场景服务的价值。这也是百度漫长的 AI 探索过程中，调试出的发展方式，用李彦宏的话就是“反馈驱动创新”，摸着“反馈”过河。

比如在文心大模型为浦发银行提供的行业模型中，结合浦发场景积累的行业数据与知识，设计了针对性的财报领域判别、金融客服问答匹配等预训练任务。

而在无人驾驶领域，百度则是亲自下场。全无人驾驶商业化项目萝卜快跑 2022 年 Q3 订单量超过 47.4 万，同比增幅高达 311%；2021 年与吉利合资成立集度汽车后，文心与吉利还建立了行业模型，对智能客服系统、车载语音系统、领域知识库构建进行提升。自己掌握汽车硬件和智能驾驶系统层，百度在无人驾驶领域的数据和反馈直接用于训练硬件软件系统，推动无人驾驶能力提升，这是百度AI模式的一个典型。

截至目前文心发布了 11 个行业大模型，涉及电力、燃气、金融、航天、传媒等领域。相较于此前 AI 业务经常是重复造轮子，大模型的优势是低边际成本。不过要满足具体的碎片化的需求，优质的数据本身可能会是一个难题，大模型调用的成本目前也还不够低。

百度 CTO 王海峰将这一产业化路径归纳为“类台积电”模式——大模型生产企业在大模型能力、海量数据、大规模算力等方面具有优势，根据AI应用方的需求，自动化、标准化地生产不同场景领域的模型。

据媒体报道，李彦宏在内部会议上称：“ 3 个或 4 个新业务，只要有一个跑出来，我就觉得做得不错，新业务到 2022 年底还是 0，希望 2023 年出来一个 1。”

目前看来，文心一言可能最接近这个“ 1 ”。

本文地址：https://www.cknow.cn/archives/17187

以上内容源自互联网，由百科助手整理汇总，其目的在于收集传播生活技巧，行业技能，本网站不对其真实性、可靠性承担任何法律责任。特此声明！

如发现本站文章存在版权问题，烦请提供版权疑问、侵权链接、联系方式等信息发邮件至candieraddenipc92@gmail.com，我们将及时沟通与处理。

百度版ChatGPT，等待奇点时刻

相关推荐