德国教师建世界最大免费AI训练数据集:50亿张图片,谷歌也在用

划重点

1德国高中教师舒曼利用业余时间与多位志愿者联手,创建了世界上最大的免费人工智能训练数据集,希望以此摆脱少数公司控制数据的情况。
2舒曼等人的数据集已经拥有50亿张图片以及相关文字链接,许多大模型都在利用该数据集进行训练,包括谷歌Imagen和Stable Diffusion等文本转图像生成器。
3舒曼的数据集也引发了许多质疑,包括其所收集数据的来源是否侵权,其中有些图像还含有暴力、色情、歧视、仇恨等内容。

德国教师建世界最大免费AI训练数据集:50亿张图片,谷歌也在用

德国高中教师克里斯托夫·舒曼

腾讯科技讯 4月25日消息,随着聊天机器人ChatGPT越来越火,其背后支持技术——大型语言模型也日益受到关注。不过,这类模型通常需要大量数据的训练,德国高中教师克里斯托夫·舒曼等人利用网上公开可用内容,创建了世界上最大的免费人工智能训练数据集,希望以此摆脱少数公司控制数据的情况。如今,舒曼等人的数据集已经拥有50亿张图片,就连谷歌也在利用其培训自己的模型。

在德国北部城市汉堡郊区的一所房子前,一个邮箱上用铅笔潦草地写着一个单词——“LAION”。这是唯一的迹象,表明这栋房子属于一个大规模数据收集工作背后的人。这项努力堪称是人工智能热潮的核心,吸引了全世界的注意力。

这个人就是德国高中教师克里斯托夫·舒曼, LAION是他热衷的项目——“大规模人工智能开放网络”的缩写。当舒曼没有教授德国青少年物理和计算机科学知识时,他与一群由志愿者组成的小团队合作,构建了世界上最大的人工智能训练免费数据集,该数据集已经被用于谷歌Imagen和Stable Diffusion等文本转图像生成器中。

像LAION这样的数据集是人工智能文本转图像生成器的核心,后者依赖于大量的视觉材料来解构和创建新图像。这些文本转图像工具去年年底首次亮相时,成为范式转变的标志性事件:它使科技行业的人工智能竞赛进入了超速状态,并引发了无数道德和法律问题。

在短短几个月内,就有生成式人工智能(AIGC)公司Stability AI和Midjourney等被控侵犯版权,批评人士对他们数据集中的暴力、性向化和其他有问题的图像发出了警告,这些图像被指控会引入几乎不可能缓解的偏见。

但这些都不是舒曼所关心的,他只是想要数据自由。

两年创建世界最大开源数据集

现年40岁的舒曼是高中教师,还是一位颇有天赋的演员。两年前,在人工智能爱好者扎堆的Discord服务器上闲逛后,舒曼帮助创建了LAION。当时,人工智能研究公司OpenAI的Dall-E首个版本刚刚发布,这是一个深度学习模型,可以根据语言提示生成数字图像。舒曼立即受到启发,但他又担心这会鼓励大型科技公司让更多数据专有化。舒曼说:“我立刻意识到,如果这项工作集中到一家、两家或三家公司手中,将对社会产生非常糟糕的影响。”

作为回应,舒曼和服务器上的其他成员决定创建一个开源数据集,以帮助培训图像转文本的扩散模型,这一过程长达数月,类似于用数百万张闪存卡教人学习一门外语。这个团队使用加州非营利组织Common Crawl收集的原始HTML代码来定位网络上的图像,并将它们与描述性文本联系起来。它不使用任何手动或人工管理。

在几周内,舒曼和他的同事们就有了300万个图文对。三个月后,他们发布了一个包含4亿图文对的数据集。这一数字现在已超过50亿,使LAION成为世界最大的免费图片和注释数据集。

LAION的名气越来越高,但该团队成员都无偿工作,为此他们在2021年接受了机器学习公司Hugging Face的一次性捐赠。然后突然有一天,前对冲基金经理埃马德·莫斯塔克加入了Discord。

莫斯塔克愿意帮助舒曼等人支付算力所需的费用,没有任何附加条件。他想推出自己的开源AIGC业务,并渴望利用LAION来培训他的产品。舒曼团队最初对他的提议嗤之以鼻,认为他是个傻瓜。

“一开始我们非常怀疑,”舒曼说,“但大约四周后,我们就可以使用云计算中的GPU了,而这通常需要花费大约9000或1万美元。”

当莫斯塔克在2022年创办Stability AI时,他将LAION的数据集用于其旗舰人工智能图像生成器Stable Diffusion,并聘请了舒曼团队的两名研究人员。仅仅一年时间,该公司目前正在寻求40亿美元的估值,这在很大程度上要归功于LAION提供的数据。对舒曼来说,他并没有从LAION中获利,自己也没有兴趣这样做。他说:“我仍然是一名高中教师。我拒绝了各种公司的工作邀请,因为我想让这个数据集保持独立。”

德国教师建世界最大免费AI训练数据集:50亿张图片,谷歌也在用

数据正成为新石油?

像LAION这样的数据集中的许多图像和链接已经在网上公开存在了几十年。人工智能的繁荣才凸显出它的真正价值,因为数据集越大、越多样化,其中的图像质量越高,人工智能生成的图像就越清晰、越精确。

这种认识反过来又引发了一系列法律和道德问题,即是否可以使用公开的材料来为数据集提供信息?如果答案是肯定的,是否应该向创作者支付报酬。

为了创建LAION,创始人们从Pinterest、Shopify和亚马逊云计算部门AWS等公司收集视觉数据,这些公司没有评论LAION对其内容的使用是否违反了它们的服务条款。同时,他们还收集YouTube缩略图、DeviantArt和EyeEm等投资组合平台上的图像、美国国防部等政府网站上的照片,以及《每日邮报》和《太阳报》等新闻网站上的内容。

如果你问舒曼,他会说任何在网上免费提供的东西都应该可以共享。但欧盟目前没有人工智能法规,即将出台的《人工智能法案》(AI Act)将于今年夏初定稿,该法案不会规定受版权保护的材料是否可以包含在大数据集中。相反,议员们正在讨论是否应纳入一项条款,要求人工智能生成器背后的公司披露其产品所使用的数据集中包含哪些材料,从而让这些材料的创造者有采取行动的选择。

欧洲议会议员德拉戈斯·图多拉奇接受采访时表示,该规定背后的基本思想很简单:“作为AIGC工具的开发者,你有义务记录并就你在算法训练中使用的受版权保护材料保持透明。”

对于Stability AI来说,这样的监管不会成为问题,但对于其他文本转图像生成器来说,这可能是一个大麻烦。舒曼说:“没有人知道OpenAI实际上用哪些数据训练DALL-E – 2。”他还以此为例,说明科技公司是如何锁定公共数据的。此外,这还将颠覆目前数据收集领域的现状。

Mozilla基金会可信赖人工智能高级研究员阿贝巴·比尔哈内说:“数据收集领域的共识是,你不需要征求人们的意见,或者你不需要通知人们,或者他们甚至不需要知道自己的数据在被收集。他们觉得理所当然的是,无论网络上有什么东西,你都可以抓取它,然后把它放到数据集中。”

虽然LAION没有被直接起诉,但它已经在两起诉讼中被点名:一起指控称Stability AI和Midjourney使用艺术家有版权保护的图像来训练他们的模型,另一起是Getty images起诉Stability AI,后者声称LAION抓取了1200万张图像,并用于训练Stable Diffusion。

因为LAION是开源的,所以不可能知道有哪些公司或有多少公司使用了这个数据集。谷歌已经承认,它利用了LAION来帮助训练其Imagen和Parti AI文本转图像模型。舒曼认为,其他大公司也在悄悄这么做,只是没有披露而已。

糟糕的网络

舒曼坐在客厅里,看着儿子玩着《我的世界》,他把LAION比作“信息技术大海啸”上的一艘“小型研究船”,从海底采集样本,并向世界展示。

谈到LAION的数据集时,舒曼称:“这只是互联网上公开的一小部分信息,它们真的很容易得到,因为即使是我们,仅从捐赠者那里得到1万美元的预算也能做到。”

但是,公开的内容并不总是公众想要的,或者法律上允许看到的。除了SFW上的猫和消防车照片外,LAION的数据集还包含数百万张色情、暴力、儿童裸体、种族主义表情包、仇恨符号、受版权保护的艺术品以及从私人公司网站上抓取的作品图像。舒曼说,他不知道在LAION的数据集中有任何儿童裸体图像,他承认自己没有深入审查这些数据。他说,如果接到有关此类内容的通知,他会立即删除相关链接。

在开始创建数据集之前,舒曼咨询了律师,并运行了自动工具来过滤非法内容,但他对清理LAION的资产不太感兴趣,而是想从中吸取教训。“我们本可以从发布的数据中过滤掉暴力内容,”他说,“但我们决定不这么做,因为这会加快暴力检测软件的开发。”LAION确实提供了一个删除表单来请求删除照片,但该数据集已经被下载了数千次。

从LAION删除的攻击性内容似乎已经被整合到Stable Diffusion中,尽管最近加强了过滤,但在那里很容易生成假的斩首照片或大屠杀图像。许多专家认为,这些材料也会在人工智能生成器本身中产生偏见:像Dall-E-2和Stable Diffusion这样的工具被批评为再现种族刻板印象,即使文本提示并未暗示受试者的种族。

这种偏见就是谷歌决定不发布Imagen的原因,后者曾接受过LAION的培训。

当Stability AI被请求就此置评时,该公司表示,它在LAION数据集的一个精选子集上训练了Stable Diffusion。该公司在一封电子邮件中写道,该公司试图“为该模型提供一个比原始数据更多样化、范围更广的数据集”,并补充说,他们试图删除“使用LAION的NSFW过滤器删除成人内容”。

即使是基于开源人工智能的倡导者也警告说,在未经筛选的数据集上训练人工智能非常危险。据Hugging Face负责机器学习和社会团队的主管亚辛·杰尼特表示,基于受污染数据训练的AIGC工具将反映其偏见,“模型可以非常直接地反映其所受的训练”。杰尼特补充说,在产品上线并运行后引入护栏是不够的,因为用户总是会找到绕过安全措施的方法。

非营利性组织Data Common Crawl的创始人吉尔·埃尔巴兹怀疑“从训练集到输出之间是否存在一条直线”,他将这一过程比作艺术家去博物馆寻求灵感,但却被禁止制作艺术品的复制品。相反,他说:“重要的是由社会决定哪些用例是合法的,哪些是不合法的。”

然而,这不仅仅是由社会决定的。在欧洲监管机构起草立法以引导人工智能的使用之际,他们正在努力应对这样一个事实,即为当前人工智能热潮挖掘的数据多年来始终产生于法律灰色地带,而直到现在才受到严格审查。欧洲议会议员图多拉奇表示:“如果没有多年的数据积累,人工智能就不可能达到这种复杂程度。”

但对于舒曼来说,应该监测的不是数据集。在他看来,人工智能最糟糕的情况是,大型科技公司能够通过让他们的工具迎合监管框架,将开发人员挤出市场。他警告称:“如果我们试图放慢速度,过度监管,就会出现一个很大的危险,那就是最终只有少数几家大公司有能力满足所有的数据要求。”

本文地址:https://www.cknow.cn/archives/21948

以上内容源自互联网,由百科助手整理汇总,其目的在于收集传播生活技巧,行业技能,本网站不对其真实性、可靠性承担任何法律责任。特此声明!

如发现本站文章存在版权问题,烦请提供版权疑问、侵权链接、联系方式等信息发邮件至candieraddenipc92@gmail.com,我们将及时沟通与处理。