从AI画画到“用声音做视频”,全球掘金AIGC | 焦点分析

从AI画画到“用声音做视频”,全球掘金AIGC | 焦点分析

题图来自Unsplash,基于CC0协议

作者 | 邓咏仪

编辑 | 苏建勋

整个科技行业经历了让人疲惫的2022年。但下半年,AI来了个华丽的返场——

登台的新宠儿名为“AIGC”,又称“生成式AI”(Generative AI)。这一领域正以令人侧目的速度发展,将创新和技术再度拉回到世界舞台的焦点。

今年4月,一家名为Open AI的公司公布旗下的DALL-E 2模型,其用文字生成图像的质量之高,让人震惊——以前,“AI画画”还只是一小群人的游戏,AI画出来的画,像出自小学生之手一样朴实稚拙。

但很快,大家发现AIGC进步神速。仅仅过了4个月,一名游戏设计师凭借AI模型Midjourney画出来的一幅画,夺取知名艺术大奖,这惹来争议一片。

获奖作品《太空歌剧院》

而刚过去的10月,AIGC的另一家代表公司Stability.AI,仅仅成立2年,就宣布完成1.01亿美金的种子轮融资,估值达10亿美金,步入独角兽行列。

AI领域沉寂太久了。上一次AI吸引巨大的公众关注度,还要追溯到2016年——AlphaGo在围棋比赛中最终击败韩国国手李世石。过去几年里,AI有点像科技圈里的过气网红,技术上少有让大众惊喜的进展。在国内,AI公司的更多新闻是上市受挫、盈利遥遥无期。

如今,AIGC接棒AlphaGo,带着全新的故事归来。

最新的进展是,AIGC已有强劲的商业化苗头。一家名为Jasper的公司,用AI帮助企业和个人客户写社交媒体、博客等内容。Jasper最近宣布,今年收入预计近亿美元,这距离这家公司成立仅过去18个月。

浪潮已然来临。AIGC已处在爆发前夜,一个技术和商业化交汇的路口。巨大的关注度背后,是整个产业链的蓄势待发,摩拳擦掌。

AI重归舞台中心,大厂小厂齐下场

以AI生成文字、图像、音频等内容,是已经存在已久的深度学习方向。在2017年,一副由AI学习大量画作,最后“模仿”生成的作品,就已经在佳士得进行拍卖出超过40万美元的价格。

但从今年开始,各种各样的AI绘画应用,如同雨后春笋一般冒出。无论是大厂小厂,都像约好了一样发布AI绘画产品:2月,Disco Diffusion推出AI图像生成平台;7月,微软旗下的Open AI推出新模型WALL-E2,并进行公测;8月,Stability AI推出Stable Diffusion,并开放注册……

与2017年时相比,现在的AI画画到了“Text-to-Image”(文字生成图像)的新阶段。即用户描述画面中的内容、风格、材质、位置等,提供一个词群(如深邃的太空、达利画风、远景),机器就能进行解析,最后输出一张画作。

在以前,人们普遍意义上感受到AI的技术改革,很大程度都是在于一些决策性行为,如识别人脸(是否符合本人)、下棋(如何得出最优解)等等。

而“输入文字-AI画画”的最大不同,在于底层的AI模型的学习模式是发散性的——简而言之,是通过对文字、图片、数据等信息的学习,AI要自己开始“模仿”和“创造”新的东西。这大大降低了人们的创作门槛。

AI绘画能发展如此之快,原因首先在于,前几年全球科技行业斥巨资和大量人力,大练“AI大模型”,为之打下基础。

AI大模型,顾名思义,即是拥有巨大样本量的模型。2017年,Transformer结构的提出,让得深度学习模型参数突破了1亿。随着深度学习技术发展,模型中的数据量,更是逐步到了十亿级,再到百亿级。

以前用于训练AI画画的著名对抗生成网络模型“GAN”,就是一个百亿级的大模型。但以前,GAN学习画画的模式,只能做到无限接近原作的模仿,而不是创新。

来源:Stability.AI

真正让AI绘画取得突破的,是几家AI公司的接力,包括Open AI和Stability.AI在内的公司,将深度学习模型CAN、Diffusion等,和GAN模型进行了创新性的结合——相当于让AI换了一种学习画画的方式。这才让AI画画真正摆脱了模仿,走向“创造”之路。

而此前的AI绘画要耗费大量算力,动辄半天一天的生成时间。Stability.AI又在新模型上改进机器运算的方式,大大压缩了所需内存和空间——从一天出图,到以秒出图,对硬件要求也降到极低,C端用户才能无障碍地进行创作。

AI生成内容的星星之火开始燎原,现在新战场已经从图像走到了视频领域。9月,Meta、 Google都公布了自家的AI生成视频技术进展。比如Meta的Make-A-Video技术,就能够让平面上的物体短暂地“动起来”。

来源:Meta

美丽新世界里,谁能淘到第一桶金?

9月,红杉资本发表了一篇名为《生成式AI:一个充满创造力的新世界》(Generative AI: A Creative New World)的文章。红杉在文中表示,生成式AI,让机器开始大规模涉足知识类和创造性工作,这涉及数十亿人的工作,未来预计能够产生数万美元的经济价值。

AIGC其商业前景看起来很诱人,这可遇不可求。比起VR/AR、新能源车等领域,尚在市场教育早期,要投入大量的教育成本。而AIGC只需算力稍微强劲一点的电脑,未来甚至可以跑在云上,其内容生成的边际成本无限接近于0。

巨大的商业空间已经显现——在写作、设计、影视、广告等多个领域,AI相当于可以作为人类的“副手”,可以快速提供一些最为基本的创意指导。

但AIGC无限拓展和输出的特性,也伴随着人们的担忧:商业壁垒到底在哪里?

市面上已有不少关于“调包侠”的讨论。如今市面上所有的AI绘画产品,基本都是基于几个开源模型开发。内核不变,只简单搭壳的情况下,调用的都是类似的模型。若都给AI喂类似的数据,这些产品输出的结果,是否也会逐渐趋同?

大厂们在算力、数据训练上投入多年,底层基础设施注定是大公司的游戏。不过,由于大厂间内卷得厉害,成本在急速下降。据一家美国风投机构NfX统计,在过去2个月中,AI生成图像的成本下降了100倍。

显然,底层技术和模型无法成为壁垒。应用层的竞争已经开始——想要让AIGC打开商业新局面,真正达到规模化,市场需要一个杀手级的应用。

NfX创始人James Currier在博客里举例——Facebook成立时,市面上有50个和它一样,有着相同功能的产品。但Facebook最巧妙的选择在于,从哈佛大学的学生群体开始推广,最终吸引到各个大学的学生竞相跟随。

淘到第一桶金的AIGC公司也很类似,他们大多抓住了不错的垂直场景。比如Copy.AI,从公司成立开始就看准广告营销场景,让AI帮助客户优化营销场景中的文案等内容。Copy.AI商业化进展迅速——两年内的ARR(年度经常性收入)就已经达到1000万美元。

远在大洋彼岸的AIGC热潮,同样点燃了国内市场的热情。

7月,百度就在百度世界大会上,用了“1秒”复原了《富春山居图》残卷——背后依托的正是千亿级的AI大模型“文心”。

除了百度,在创业公司方面,也已经有彩云小梦、Tiamat、蜜度、6pen、MuseArt等公司,其中不乏已经投入数年的公司,他们覆盖了文字、图像等方向。今年,他们也成了VC圈的新任香饽饽。

但国内的技术发展和商业化处在更早期。国内市场上已经有层出不穷的AI绘画小生意,比如在抖音、闲鱼等平台开展代画服务,提供词组调试攻略等等,很多人声称“AI画画,月入过万”。但这些生意都相对边缘。

短期内,AIGC还是要依靠企业端,才能有足够资源支撑起底层技术的快速迭代。尤其对国内而言,中文数据的NLP(语义识别)比英文更为复杂,要做中文版的AI生成技术,不是简单汉化就能够解决问题。像百度和清华的AI模型均为自研,底层模型的训练成本还处在高位。

在一位AIGC观察者的博客中,一家创业公司MuseArt的创始人曾提及:每次训练AI模型的成本都在2万元左右,通过收取C端用户费用,根本无法覆盖这么巨大的支出。而近期刚刚完成融资的国内AIGC平台TIAMAT,也宣布已经和多个龙头游戏企业、广告平台合作。

AIGC在载体上没有太多桎梏,在寻求商业化的路上,未来它更多要解决的是法律、监管以及伦理问题。前不久,日本绘画AI平台“mimic”上线,很快遭到众多日本画手抵制,声明“禁止AI学习自己的画作”。现在,包括Stability在内的平台,也正在卷入版权等不少争议。

AI绘画让人类一窥技术能够创造的未来图景,这足够让人激动,只是它还需更多时间完善自身。对感兴趣的人来说,对技术进步抱以更大的宽容,保持关注,或许才能更好地让AI为己所用。

正如Stability.AI的slogan所言——“AI by the people, for the people”。

原文链接:https://36kr.com/p/1980567248978949

本文地址:https://www.cknow.cn/archives/3651

以上内容源自互联网,由百科助手整理汇总,其目的在于收集传播生活技巧,行业技能,本网站不对其真实性、可靠性承担任何法律责任,如有侵权请联系删除。特此声明!

题图来自Unsplash,基于CC0协议