海外new things | 美国技术初创「Unstructured」A轮融资2500万美元,为大型语言模型开发企业数据预处理工具

文 | 宋予

编辑 | 刘士武

据外媒TechCrunch报道,为大型语言模型提供企业数据预处理工具的初创公司「Unstructured」近期完成了2500万美元的A轮融资,由Madrona领投,Bain Capital Ventures、M12 Ventures、Mango Capital、MongoDB Ventures、Shield Capita和数位天使投资人跟投。

这家初创公司由Brian Raymond、Matt Robinson和Crag Wolfe三人于2022年联合创办,致力于为企业客户构建和部署自然语言处理(NLP)解决方案。

海外new things | 美国技术初创「Unstructured」A轮融资2500万美元,为大型语言模型开发企业数据预处理工具

图片截自企业官网

以GPT-4为例的大型语言模型是许多人工智能应用的基石,但由于无法访问一手数据或输入专有数据,部分企业不愿采用这些模型。此外,许多数据被保存在防火墙之后,因此无法被大型语言模型所利用。为了解决上述问题,「Unstructured」构建了一个平台,让大型语言模型能够提取、整理企业数据,从而扫除技术应用的障碍。

首席执行官Brian Raymond在采访中表示:“此前在Primer AI工作时,我们一次又一次地遇到了瓶颈。我们思索着应当如何提取并预处理包含NLP数据的原始客户文件,并将其转化为经过整理的文件,以便于训练机器学习模型。没有一家数据集成或智能文档处理公司能妥善解决上述问题,因此我们决定成立一家公司,以正面应对这个技术瓶颈。”

“企业每天都会产生大量的非结构化数据,如果将这些数据与大型语言模型向结合,那么企业将能够极大地提高工作效率。然而,由于数据的分散化,当今的数据科学家仍然需要手动建立数据连接器和预处理管道。对此,「Unstructured」提供了一个全面的解决方案,用于连接、转换和暂存自然语言数据。”Raymond补充道。

「Unstructured」开发了一系列数据处理工具,以清理、转换企业数据,包括从网页中删除广告和无关数据、扫描页面并执行光学字符识别等。该公司为特定类型的PDF、HTML、Word 文档、SEC文件以及美国陆军军官评估报告开发了处理管道。

「Unstructured」从零开始训练了自有的文件转换NLP模型,并集成了其他模型,以便从原始文件中提取文本和标题、页眉、页脚等20种离散元素。该公司开发了约15个连接器,从客户关系管理软件等多个数据源提取文档。在下游,「Unstructured」与LangChain(一个用于创建大型语言模型应用程序的框架)、Weaviate和MongoDB的Atlas Vector Search等矢量数据库集成。

Raymond表示,该团队开发的数据处理工具是开源套件,已经被下载超过70万次,被100多家公司所采用。为了创造新的收入来源,该公司计划推出一个商业应用程序接口,可以转换25种不同格式的数据,包括PowerPoint和JPG等。

首席执行官Brian Raymond在加入Primer AI之前曾是美国情报界的活跃分子,曾在中东地区服役,在奥巴马政府时期在白宫任职,随后在中央情报局任职。因此,「Unstructured」与美国国防机构的关系密切。该公司已经与美国空军和美国太空部队签署多项合同,与美国特种作战司令部(SOCOM)合作,“结合任务相关数据”部署大型语言模型。此外,「Unstructured」的董事会成员还包括五角大楼联合人工智能中心主任Michael Groen,以及国防部国防创新部门的领导人Mike Brown。

该公司此前还完成了一轮未披露的种子轮融资,由Bain Capital Ventures领投。

本文地址:https://www.cknow.cn/archives/29593

以上内容源自互联网,由百科助手整理汇总,其目的在于收集传播生活技巧,行业技能,本网站不对其真实性、可靠性承担任何法律责任。特此声明!

如发现本站文章存在版权问题,烦请提供版权疑问、侵权链接、联系方式等信息发邮件至candieraddenipc92@gmail.com,我们将及时沟通与处理。