炸场的Sora和冷静的同行

2024年3月6日 00:30 • 科技号

Sora面世半个多月，这个深水炸弹的后续效应依然强烈。

Open AI 发布的这个文生视频模型，紧跟着 Google 发布 Gemini 1.5 的消息，让支持百万级 token 的 Gemini 黯然失色，帮助OpenAI在科技圈成功「抢 C」，一跃成为视频模型届的 GPT 3.5 时刻。

毕竟，当Runway、Pika 等同类视频模型的创作上限还在 10 秒左右时，Sora 已经能够生成 60 秒的精致视频，可以一镜到底、切换视角，无论是背景还是主人公的表情，都拥有丰富的细节。关于Sora是否会杀死剪映的舆论甚嚣尘上。

目前 Sora 还没有对公众开放，但昨天，已经有创作者拿到了测试资格，并发布了自己尝试的三个视频。

在「测评电子产品的年轻人」这个视频中，光影细腻，人物和置景真实，美中不足的是他的右手有六根手指。

此外，Sora 在理解物理时会遇到困难，特别是在腿部/行走方面。在 Sora 生成的小狗行走视频中，腿部经常交叉并合并在一起。

虽然 OpenAI 发布了 Sora 的技术报告，但其中并未涉及技术细节。

我们能知道的是，Sora 又是一次 OpenAI 式的典型胜利，是技术选型、训练数据、资源优化等各个环节的细节优化，组合成了一次效果超出预期的质变。就像 Sam Altman 之前解释为什么 GPT 会比其他的大模型更好，是因为 OpenAI 堆了「一百万个小技巧」。

去年年初，ChatGPT 发布后，海内外大厂争先恐后地发布文本大模型，热闹非凡，生怕落队；这次 Sora 发布后，只有海外版剪映、Stability AI 跟进发布了文生视频产品的测试版。

其他公司也许是暗中跟进，或是谨慎观望，除了网红李一舟蹭蹭热点，还没有谁站出来敢说，要做中国版Sora。

01 追，还是不追？

ChatGPT 发布后，大公司和初创企业纷纷加入百模大战；现在 Sora 已经发布半个多月了，此前的盛况没有再次出现。

一周之后，Stability AI 开放了Stable Video的公测，但或许是服务器爆满的缘故，功能不够稳定。生成的视频最值得称道的是清晰度，但仍然没有大幅度的视角切换，画面主体也没有太多动作，只有背景动了起来，给人的感觉仍然是「会动的图片」。

字节剪映海外版也上线了文生视频的功能，同样反响不佳，主要是因为等待的时间过长。网友测试发现，一个视频的生成要等待 1800 分钟。

有人工智能算法工程师分析，同等参数的视频模型，比大语言模型所需要的算力要多几十倍。业界流传，Sora 的参数规模在 10B 到 30B 之间，其所需的算力或许与千亿级的大语言模型差不多。

有趣的是，腾讯和阿里巴巴虽然没有跟进视频模型的发布，却纷纷第一时间在自己的技术账号上发布了对 Sora 的技术拆解；其中，阿里巴巴达摩院所发布的文章题目叫做《复刻 Sora 有多难？》，并在文末表示，「我们期待视频生成领域的 LLaMa ，以及更加普惠的开源视频生成技术。」

AI 初创企业 Hugging Face 认为，视频模型的三大挑战是算力、数据、指令模糊性。要想做到物体和空间的一致性，往往伴随着高昂的计算成本；高质量的视觉数据集也比文本的更为稀缺。此外，生产让模型更容易理解视频的 Prompt，会比语言模型、文生图模型难度更大。

此外，Sora 是一个凭借直觉和概率驱动的模型，而不是靠精确计算的公式驱动的模型。有人总结道，「Sora 可以像一个普通人一样，通过直觉去理解物理世界，也能解决很多问题，但它没有办法像物理学家一样造出火箭这种东西。」

无论如何，Sora 跟 GPT 3.5 一样，验证了技术方向的可行性，视频模型的性能未来会随着参数量、数据大小和计算量的增加而提高。

02 又一次降维打击？

硅谷投资机构 a16z 统计，截止去年年底，市面上共有 21 个公开的视频模型，其中包括 Runway、Pika、Stable Video Diffusion 等等。

然而，第一个出圈的还是 Sora，核心依然是它远超预期的效果。以往几秒钟的 AI 视频，给人的感觉还是「会动的图片」，而 Sora 则展现了对真实世界的理解力和还原力，还有对虚拟场景的充沛想象力。

Sora 官网发布的几十个视频 Demo 中，有在东京街头散步的女人、在咖啡杯里航行的海盗船、在雪原上走过的猛犸、无人机视角拍摄的海浪拍打峭壁、华丽的纸艺海底世界、维多利亚冠鸽的微距特写，其视频主体和环境的一致性令人震撼。咖啡杯里航行的海盗船这个 Demo 里，水面的波纹、船的运动轨迹，很好地遵循了现实世界的物理规律。

阿里巴巴达摩院的分析认为，Sora 的智能涌现，体现在它的三位一致性、长距离连贯性和物体持久性、与世界互动的能力、对数字世界的模拟。

虽然 Sora 对复杂的物理预测还显得力不从心——比如，一个人咬了一口饼干，但饼干上并没有出现咬痕，但许多从业者认为，这是 AI 真正理解世界的开端，随着模型能力的持续提升，它对物理世界的理解和还原会更加准确。

此外，OpenAI 不仅公布了 Demo 视频，同时公布了每一个 Sora 生成视频的指令，方便大家尝试其他产品后，对比效果。

尽管外界担心其他文生视频初创企业的命运，但创始人们表现出的兴奋却远远大过恐惧。

Runway CEO Cristóbal 感慨技术进步的速度，过去需要以年计算的技术进步，现在压缩到了月的维度，他预测技术将会更快地进化，每天、甚至每个小时，都可以涌现出新的技术实现。Pika 创始人郭文景也在媒体采访中表示，「（Sora）是一个振奋人心的消息，我们准备直接冲，将直接对标Sora。」

去年 8月，OpenAI 对外披露了首次收购行为。

被收购公司 Global Illumination，开发了一款名为 Biomes 的开源大型多人在线沙盒游戏，类似于浏览器上运行的《我的世界》。当时就有人指出，借助开放式游戏中玩家的交互，OpenAI 通过这次收购，能为 AGI 构建真正的数据集；也有人猜测，OpenAI 将会推出游戏或视频模型产品。

从 Sora 的效果看，或许这次收购的确对 Sora 的训练数据优化有一些帮助。

03 世界模拟器？

「Sora 是能够理解和模拟现实世界的模型的基础，我们相信这一功能将成为实现 AGI 的重要里程碑。」OpenAI 在技术报告的最后写道。

ChatGPT 是思维世界的模拟器，Sora 是物理世界的模拟器，出门问问 CEO 李志飞评论，「OpenAI 的科学家们果然一直有着创世的冲动。」

有技术人员猜测，Sora之所以具备强大的能力，得益于模型和数据。

首先，与 Runway、Pika 的技术路线不同，Sora 使用了基于 Transformer 的扩散模型（Diffusion Model），可以通过自注意力机制（Self-attention）来学习视频数据中各个元素块之间的关系，并模拟数据的扩散过程，生成高质量的视频输出。

其次，Sora 能将不同类型的视觉数据，转化成统一的视觉补丁（Patch）。Patch 之于 Sora，就像 token 之于 ChatGPT。ChatGPT 把各种语言、编程代码都切分为 token，Sora 把图片、视频都切割为 patch。

OpenAI 认为，将视觉数据统一处理，将带来两点好处：首先是采样的灵活性，通过统一的数据表示，Sora 可以灵活处理不同宽高比的视频内容。其次是更好的构图效果。在原始宽高比的视觉数据上进行训练，Sora 可以更好地学习和理解构图，使得生成的内容更符合人类的视觉习惯和审美标准。

如同 ChatGPT 在专业领域的能力，还比不过详细定义规则的小模型一样，Sora 虽然对物理世界有一定理解，并拥有更强大的泛化能力，但它与此前的物理仿真模拟相比，预测价值仍然有限。

比如，物理仿真模型可以预测汽车在相撞时的反弹效果和形变，但 Sora 无法发挥这样的作用。OpenAI 官网发布的 Demo 也表现出，Sora 无法很好地模拟玻璃杯破碎时的动态，混淆了玻璃破碎和液体溢出的顺序，倒下的玻璃杯甚至与桌面融为一体。

英伟达的研究人员Jim Fan认为，这有两种可能的解释：一是模型之所以犯这样的错误，是因为它根本不学习物理，只是简单地缝合像素；二是模型实现了一个内部的物理引擎，但这个引擎还不够好，就像 Unreal Engine v1 在流体和可变形物体等物理模拟方面比 v5 要差得多，渲染效果也差得多，并且不符合物理规律。他本人更倾向于第二种解释。

但模型能力的提升是可预见的，因为人类生产视觉数据的速度前所未有地加速了：全世界遍布摄像头，每人每天都在用智能手机采集这个世界。这将成为模型理解世界的通路。此外，UE 5 也可以模拟多角度的高清视频，让模拟出来的视觉数据更加优质。

从 Sora 中我们不难看出，头部玩家 OpenAI 的思路是「集中力量办大事」：专注提高模型的能力，只进行轻度的产品化。毕竟，能生产 60s 视频的模型，要比添加了很多细碎功能、复杂按钮的视频产品震撼多了。此外，谁也无法预测模型智能程度的提升曲线，产品设计的节奏很可能追不上模型进步的速度。

当下对于大模型公司来说，模型能力才是最好的增长手段。不仅SLG（Sale-lead growth）显得过于原始，甚至PLG（Product-lead growth）也有些过时，我们正在迎来一个MLG（Model-lead growth）的时代。

本文地址：https://www.cknow.cn/archives/64419

以上内容源自互联网，由百科助手整理汇总，其目的在于收集传播生活技巧，行业技能，本网站不对其真实性、可靠性承担任何法律责任。特此声明！

如发现本站文章存在版权问题，烦请提供版权疑问、侵权链接、联系方式等信息发邮件至candieraddenipc92@gmail.com，我们将及时沟通与处理。

Claude 3发布，福布斯和阿莫迪兄妹聊了些什么？

上一篇 2024年3月5日 20:30

贾跃亭旗下FF状告丁磊和高合汽车，华人运通：不存在抄袭和侵权行为

下一篇 2024年3月6日 04:30

王慧文入场，对中国版 OpenAI 争夺战意味着什么？

当你还在被朋友圈各种转发的 ChatGPT 文章刷屏之时，科技圈里的各种高端局，正从上周开始全面展开。这可能是中国科技圈有史以来资本、技术、顶级创业者最静水潜流、暗潮涌动的一周，他…

2023年3月20日 • 科技号
科技号

人民币VC的一层恐惧被揭开了

不敢重仓，是长期以来人民币基金“共同的恐惧”。美元基金与人民币基金的差异，让人不由想起多年前人民币机构大佬们对于“不敢重仓”的集体反思。当年，面对错过互联网企业的尴尬境地，深创…

2023年3月14日
科技号

一品威客要上市了，但众包平台能跑出独角兽吗

2023年伊始，共享经济领域又有了新的声音。日前有消息显示，知识技能共享平台一品威客向美国证券交易委员会（SEC）递交招股书，股票代码EPWK，拟在纳斯达克上市。在这个赛道的领头羊…

2023年3月12日
科技号

苹果"弃车从AI"：十年迷途知返，犹未晚矣丨知料

作者丨邱晓芬编辑丨苏建勋今日，彭博社消息称，苹果取消了他们长达十年累计投入超过数十亿美金的“泰坦”造车计划。不过，苹果的这些投入并不会白费，苹果计划将原来团队的研发重点转向生…

2024年2月29日
萤石网络，走不出象牙塔

2016年，有着「安防茅」之称的海康威视开始陆续在财报中披露创新业务的业绩状况，有意为后面的分拆上市铺路。到2023年，海康威视的两颗果实落地。一个是不久前提交IPO的海康机器人…

2023年4月8日 • 科技号
廉价版头显没了，苹果的MR入口还有多久才能实现？

在WWDC 2023年上，Apple终于公布了名为Vision Pro的MR设备，为Apple补全了继手机AR后在虚拟现实领域的最后一块拼图。和Apple设想的一样，Vision …

2023年10月3日 • 科技号
侯毅破“茧”，但盒马的未来仍危机四伏

骨子里是一个战士的侯毅，不会因为一场战役的“荣休”而离开他的星辰大海。 “今天是最后一天交接手续，留一个照片纪念一下……”这条被侯毅唯一置顶的朋友圈，宣告着这位零售“老将”阶段性完…

2024年3月31日 • 科技号
刚刚，又一股惨遭退市，市值暴跌99%

趣头条（股票代码：QTT）日前宣布，将于当地时间3月23日从美国纳斯达克退市。早在3月14日，趣头条就收到了来自纳斯达克关于将股票退市的决定函。对于这一决定，趣头条表示不会提起诉…

2023年3月22日 • 科技号
科技号

小米汽车，冲

距离原定的上市时间仅剩一年左右，小米汽车开始全速冲刺，高层近日也再现大规模调动。雷军距离圆梦时刻越来越近，压力也就越来越大——姗姗来迟的小米汽车，能从特斯拉、比亚迪、“蔚小理”的层…

2023年6月6日
科技号

日本首台量子计算机投入使用，加入中美竞争

日本理化学研究所（简称：理研）3月27日启动了日本第一台“量子计算机”，通过网上云服务开放使用。此举将促进企业和大学使用量子计算机，为未来的产业应用储备技术知识。理化学研究所向媒…

2023年3月28日
寒武纪17亿定增落地机构浮盈60%，有股东精准“清仓”卖飞

ChatGPT概念的一把火，点燃了投资者的热情，股价低迷的“AI芯片第一股”的寒武纪成了香饽饽。寒武纪股价大涨，有人欢喜有人遗憾。 4月12日晚间，寒武纪披露2022年度定增情况报…

2023年4月14日 • 科技号
泳池清洁的未来，机器正在取代人工

苦力活儿终将被全自动工具替代。在泳池清洁领域，这一趋势已经到来。起初，泳池清洁只能依赖人工，要么在更换池水时进行池底、池壁的清洗，要么手持水下吸污机。对于高频率使用的泳池来说，日…

2023年5月28日 • 科技号

炸场的Sora和冷静的同行

相关推荐