AI布局最超前的,竟然是Meta

整个上半年,美股科技公司因生成式AI的爆发走出了疯狂的行情。

我盘点了一下,从去年12月30日到今年6月29日,OpenAI的盟友微软股价上涨了41%,市值达到2.5万亿美元,仅次于苹果;

其竞争对手谷歌因Bard演示翻车股价一度暴跌,但毕竟是AI领域资历最深的头号玩家,最终涨幅也达到了36%;

特斯拉因占据了具身AI领域的领先地位,股价涨幅达到108%;

算力供应商英伟达上涨了180%,市值破万亿美元。

有点意外的是,Meta同期涨幅竟然达到137%,仅次于英伟达。目前Meta市值7318亿美元,接近特斯拉的8121亿美元。

自更名元宇宙后,Meta的股价伴随着美联储的不断加息节节败退,最低市值跌到2000多亿美元,已然跌出科技巨头第一阵营FANG。那么在这轮由AI带动的上涨行情中,Meta在AI上究竟做了什么?

首先要强调,Facebook也是最早投入AI研发的巨头之一,2014年还参与过Deepmind的竞拍,最后败给了谷歌。扎克伯格不甘居下风,他不惜一切代价将与杰弗里.辛顿齐名、后来一起获得图灵奖的杨立昆收入麾下,主导Facebook在AI上的研究。

Facebook本与谷歌并驾齐驱。2016年,Facebook推出了开源的机器学习框架PyTorch,成为后来业界训练AI的重要工具。

但OpenAI的诞生改写了局面。当杰弗里.辛顿的得意门生伊利亚离开谷歌,杨立昆的得意门生扎伦巴也从Facebook辞职,二人双双奔赴OpenAI,从此这家创业公司开始和谷歌角逐AI的领导权,而Facebook似乎沦为跟随者。

2017年,谷歌发明Transformer,2018年6月OpenAI推出GPT-1,10月谷歌推出BERT。在BERT开源后,Facebook才在BERT之上推出了XLM、 RoBERTa模型。

2021 年 1 月,OpenAI 推出由文本生成图像的模型DALL-E,当时生成能力还很弱。2022年2月,谷歌发布AI绘画工具Disco Diffusion,比DALL-E的生成效果好,但速度很慢。2022年4月,OpenAI 推出DALL-E2,其能力已经非常成熟。到2022年7月,Meta才发布了文生图模型“Make-A-Scene”。

2022年11月30日,OpenAI 推出GPT-3.5的聊天机器人chatGPT,在全球掀起AI风暴。2023年2月24日,Meta才发布其大语言模型的第一个版本LLaMA。

Meta处处慢人一步,但它采取了跟竞争对手不同的策略——开源,这让它赢得了开发者们的好评和支持。

OpenAI大张旗鼓地商业化,它推出了MAAS模式,向开发者按token收取大模型的使用费。微软将 openAI整合到其云服务Azure中,谷歌也将PaLM 2大模型整合进谷歌云,向企业用户收费。

而Meta发布的LLaMA供研究人员免费使用。LLaMA上线后,研究人员们很快开发出很多chatGPT的免费替代品。著名的方舟基金“木头姐”对LLaMA评价是,用更低的算力、更少的数据做出更好的模型。甚至谷歌内部都有工程师提出质疑,“如果有免费、高质量的替代品,谁还会为有使用限制的谷歌产品付费?”

除了LLaMA,Meta今年上半年还连续发布了一系列开源的AI模型,只因OpenAI和微软风头太劲,并未引起太多关注。

4月6日,Meta发布了SAM(Segment Anything Model),该模型可以分割图像中的一切对象。比如在AR/VR领域,SAM可以根据用户的目光选择对象,然后将其“提升”到3D中;对于内容创作者,SAM可以提取图像进行拼贴或视频编辑。

SAM是通用的分割方法,已经学会了物体是什么的一般概念,可以对不熟悉的物体和图像进行零样本泛化,而无需额外的训练。Meta开源了SAM的模型和包含1100万张图像和11亿个掩码的训练数据集。英伟达人工智能科学家JimFan称,SAM是计算机视觉领域的“GPT-3时刻”之一。

接着,扎克伯格亲自官宣推出视觉大模型DINOv2。这是一款用于计算机视觉(CV)任务的基础模型,DINOv2 在一个由 1.42 亿张图像构成的筛选数据集上进行了预训练,用以图像分类、语义分割和深度估计等多个任务。比如输入一张图片,模型就能找出跟它内容相关的图片。针对某个物体,模型能准确地识别出它在空间中的位置。扎克伯格认为,它能加快元宇宙的建设。

SAM+ DINOv2是计算机视觉技术的一大突破,开发者们用于探索各领域的应用,有人表示在农业领域太好用了,有人甚至称赞Meta 才是真正的“Open”AI 公司。

这只是冰山一角,5月9日Meta发布的ImageBind才是Meta的大招。ImageBind是一个跨六种模态的整体化人工智能模型,包括图像、文本、深度、热度图、音频和IMU(运动数据)。它还融合了Make-A-Scene、Make-A-Vido、SAM 和 DINOv2等功能,有超强的跨模态生成能力。

AI布局最超前的,竟然是Meta

比如,给 AI 听一段火车的声音,它便能直接生成火车的图像。当你录了一段海边日落的视频,AI 便能自动根据视频内容来生成文案和字幕,并匹配上合适的背景音乐。

ImageBind 还内置了 3D 感知和 IMU(运动数据) 传感器,可用于测量加速度与旋转运动,让 AI 能够身临其境感受我们在物理世界的变化。未来ImageBind还可以集成更多的感官功能,比如嗅觉、触觉。

Meta的AI路线已经很清晰,就是为了建设元宇宙。Meta自2021年更名以来,就一直不被市场看好,因为元宇宙是3D的、沉浸式的、虚实结合且实时互动的虚拟世界,而开发这样的应用难度很高,这也是Meta经营了多年的VR内容生态依然弱小的原因。

而现在Meta通过AI来降低应用开发的门槛,ImageBind相当于开发元宇宙应用的AI模型,Make-A-Scene、Make-A-Vido、SAM 和 DINOv2是专用工具或者说组件,在各环节降低开发者的难度。而只有当内容生产和应用开发都实现AI化,这样的虚拟世界才称得上是真正的元宇宙。

Meta还在不断地推出新工具,6月13日, Meta又开源了音乐生成模型 MusicGen。它能根据用户输入的文字提示,生成12秒钟的音乐片段。还可以使用旋律提示来生成新音乐,用户输入一首已有的曲调,MusicGen就会在此基础上创作出一首新的歌曲。

6月14日, Meta又发布了类人模型I-JEPA,它能够准确地分析和完成图像中缺失的部分。

可以说,Meta的元宇宙AI模型基本成形了,接下来就看开发者怎么去把这些工具用起来,把这个模型实实在在地跑通。毕竟跟chatGPT、midjourney这样的单一功能模型相比,ImageBind实在是太复杂了。

通观微软、谷歌,它们的AI战略都是渐进式的,先通过大模型来改善现有的产品业务,比如微软将OpenAI接入BING、Office和Azure,谷歌将PaLM2接入搜索、workspace、地图甚至Android。它们都是先用AI来改造旧世界,而Meta则想一步到位,直接用AI创造新世界。

从这个角度来看,Meta在AI上是最超前的、也是最彻底的。

半年137%的涨幅,是资本市场对Meta的认可。但同时也不能忽视一个风险,那就是Meta在AI上走得太快,它可能成为先驱,也有可能变成先烈。

本文地址:https://www.cknow.cn/archives/26908

以上内容源自互联网,由百科助手整理汇总,其目的在于收集传播生活技巧,行业技能,本网站不对其真实性、可靠性承担任何法律责任。特此声明!

如发现本站文章存在版权问题,烦请提供版权疑问、侵权链接、联系方式等信息发邮件至candieraddenipc92@gmail.com,我们将及时沟通与处理。