AI布局最超前的，竟然是Meta-希知网

整个上半年，美股科技公司因生成式AI的爆发走出了疯狂的行情。

我盘点了一下，从去年12月30日到今年6月29日，OpenAI的盟友微软股价上涨了41%，市值达到2.5万亿美元，仅次于苹果；

其竞争对手谷歌因Bard演示翻车股价一度暴跌，但毕竟是AI领域资历最深的头号玩家，最终涨幅也达到了36%；

特斯拉因占据了具身AI领域的领先地位，股价涨幅达到108%；

算力供应商英伟达上涨了180%，市值破万亿美元。

有点意外的是，Meta同期涨幅竟然达到137%，仅次于英伟达。目前Meta市值7318亿美元，接近特斯拉的8121亿美元。

自更名元宇宙后，Meta的股价伴随着美联储的不断加息节节败退，最低市值跌到2000多亿美元，已然跌出科技巨头第一阵营FANG。那么在这轮由AI带动的上涨行情中，Meta在AI上究竟做了什么？

首先要强调，Facebook也是最早投入AI研发的巨头之一，2014年还参与过Deepmind的竞拍，最后败给了谷歌。扎克伯格不甘居下风，他不惜一切代价将与杰弗里.辛顿齐名、后来一起获得图灵奖的杨立昆收入麾下,主导Facebook在AI上的研究。

Facebook本与谷歌并驾齐驱。2016年，Facebook推出了开源的机器学习框架PyTorch，成为后来业界训练AI的重要工具。

但OpenAI的诞生改写了局面。当杰弗里.辛顿的得意门生伊利亚离开谷歌，杨立昆的得意门生扎伦巴也从Facebook辞职，二人双双奔赴OpenAI，从此这家创业公司开始和谷歌角逐AI的领导权，而Facebook似乎沦为跟随者。

2017年，谷歌发明Transformer，2018年6月OpenAI推出GPT-1，10月谷歌推出BERT。在BERT开源后，Facebook才在BERT之上推出了XLM、 RoBERTa模型。

2021 年 1 月，OpenAI 推出由文本生成图像的模型DALL-E，当时生成能力还很弱。2022年2月，谷歌发布AI绘画工具Disco Diffusion，比DALL-E的生成效果好，但速度很慢。2022年4月，OpenAI 推出DALL-E2，其能力已经非常成熟。到2022年7月，Meta才发布了文生图模型“Make-A-Scene”。

2022年11月30日，OpenAI 推出GPT-3.5的聊天机器人chatGPT，在全球掀起AI风暴。2023年2月24日，Meta才发布其大语言模型的第一个版本LLaMA。

Meta处处慢人一步，但它采取了跟竞争对手不同的策略——开源，这让它赢得了开发者们的好评和支持。

OpenAI大张旗鼓地商业化，它推出了MAAS模式，向开发者按token收取大模型的使用费。微软将 openAI整合到其云服务Azure中，谷歌也将PaLM 2大模型整合进谷歌云，向企业用户收费。

而Meta发布的LLaMA供研究人员免费使用。LLaMA上线后，研究人员们很快开发出很多chatGPT的免费替代品。著名的方舟基金“木头姐”对LLaMA评价是，用更低的算力、更少的数据做出更好的模型。甚至谷歌内部都有工程师提出质疑，“如果有免费、高质量的替代品，谁还会为有使用限制的谷歌产品付费？”

除了LLaMA，Meta今年上半年还连续发布了一系列开源的AI模型，只因OpenAI和微软风头太劲，并未引起太多关注。

4月6日，Meta发布了SAM（Segment Anything Model），该模型可以分割图像中的一切对象。比如在AR/VR领域，SAM可以根据用户的目光选择对象，然后将其“提升”到3D中；对于内容创作者，SAM可以提取图像进行拼贴或视频编辑。

SAM是通用的分割方法，已经学会了物体是什么的一般概念，可以对不熟悉的物体和图像进行零样本泛化，而无需额外的训练。Meta开源了SAM的模型和包含1100万张图像和11亿个掩码的训练数据集。英伟达人工智能科学家JimFan称，SAM是计算机视觉领域的“GPT-3时刻”之一。

接着，扎克伯格亲自官宣推出视觉大模型DINOv2。这是一款用于计算机视觉（CV）任务的基础模型，DINOv2 在一个由 1.42 亿张图像构成的筛选数据集上进行了预训练，用以图像分类、语义分割和深度估计等多个任务。比如输入一张图片，模型就能找出跟它内容相关的图片。针对某个物体，模型能准确地识别出它在空间中的位置。扎克伯格认为，它能加快元宇宙的建设。

SAM+ DINOv2是计算机视觉技术的一大突破，开发者们用于探索各领域的应用，有人表示在农业领域太好用了，有人甚至称赞Meta 才是真正的“Open”AI 公司。

这只是冰山一角，5月9日Meta发布的ImageBind才是Meta的大招。ImageBind是一个跨六种模态的整体化人工智能模型，包括图像、文本、深度、热度图、音频和IMU（运动数据）。它还融合了Make-A-Scene、Make-A-Vido、SAM 和 DINOv2等功能，有超强的跨模态生成能力。

比如，给 AI 听一段火车的声音，它便能直接生成火车的图像。当你录了一段海边日落的视频，AI 便能自动根据视频内容来生成文案和字幕，并匹配上合适的背景音乐。

ImageBind 还内置了 3D 感知和 IMU（运动数据）传感器，可用于测量加速度与旋转运动，让 AI 能够身临其境感受我们在物理世界的变化。未来ImageBind还可以集成更多的感官功能，比如嗅觉、触觉。

Meta的AI路线已经很清晰，就是为了建设元宇宙。Meta自2021年更名以来，就一直不被市场看好，因为元宇宙是3D的、沉浸式的、虚实结合且实时互动的虚拟世界，而开发这样的应用难度很高，这也是Meta经营了多年的VR内容生态依然弱小的原因。

而现在Meta通过AI来降低应用开发的门槛，ImageBind相当于开发元宇宙应用的AI模型，Make-A-Scene、Make-A-Vido、SAM 和 DINOv2是专用工具或者说组件，在各环节降低开发者的难度。而只有当内容生产和应用开发都实现AI化，这样的虚拟世界才称得上是真正的元宇宙。

Meta还在不断地推出新工具，6月13日， Meta又开源了音乐生成模型 MusicGen。它能根据用户输入的文字提示，生成12秒钟的音乐片段。还可以使用旋律提示来生成新音乐，用户输入一首已有的曲调，MusicGen就会在此基础上创作出一首新的歌曲。

6月14日， Meta又发布了类人模型I-JEPA，它能够准确地分析和完成图像中缺失的部分。

可以说，Meta的元宇宙AI模型基本成形了，接下来就看开发者怎么去把这些工具用起来，把这个模型实实在在地跑通。毕竟跟chatGPT、midjourney这样的单一功能模型相比，ImageBind实在是太复杂了。

通观微软、谷歌，它们的AI战略都是渐进式的，先通过大模型来改善现有的产品业务，比如微软将OpenAI接入BING、Office和Azure，谷歌将PaLM2接入搜索、workspace、地图甚至Android。它们都是先用AI来改造旧世界，而Meta则想一步到位，直接用AI创造新世界。

从这个角度来看，Meta在AI上是最超前的、也是最彻底的。

半年137%的涨幅，是资本市场对Meta的认可。但同时也不能忽视一个风险，那就是Meta在AI上走得太快，它可能成为先驱，也有可能变成先烈。

本文地址：https://www.cknow.cn/archives/26908

以上内容源自互联网，由百科助手整理汇总，其目的在于收集传播生活技巧，行业技能，本网站不对其真实性、可靠性承担任何法律责任。特此声明！

如发现本站文章存在版权问题，烦请提供版权疑问、侵权链接、联系方式等信息发邮件至candieraddenipc92@gmail.com，我们将及时沟通与处理。

AI布局最超前的，竟然是Meta

相关推荐