矢量搜索现在是GenAI开发的关键组成部分

日期: 2024-01-09 作者:Eric Avidon翻译:邹铮 来源:TechTarget中国 英文

矢量搜索并不是什么新鲜事。然而,它的最新发展是作为关键数据管理功能,因为它能够发现所需的数据,为生成式 AI 模型提供信息。

正因为如此,在2023年,从 Databricks 和 Snowflake 等数据平台提供商到 Dremio 和 MongoDB 等专家,一大批数据管理供应商推出矢量搜索和存储功能。

矢量数据库的历史可以追溯到 2000 年代初。同时,矢量只是非结构化数据的数字表示。

姓名、地址、社会安全号码、财务记录和销售点交易等数据类型都具有结构,由于这种结构,它们可以存储在数据库和其他数据存储库中,并且易于搜索和发现。

但是,文本没有结构,音频文件、视频、社交媒体帖子、网页或物联网传感器数据等也是如此。但是,所有这些非结构化数据都具有巨大的价值,有助于提供有关给定主题的信息。

为了防止非结构化数据被传输到数据仓库从此“不见天日”,使其在数十亿个数据点中被发现,当非结构化数据加载到数据库、数据仓库、数据湖或数据湖仓一体时,算法会自动为其分配矢量。

NoSQL数据库供应商MongoDB的首席产品官Sahir Azam表示,然后,该矢量可以进行大规模的相似性搜索,而不仅仅是搜索精确匹配,这很重要。

他表示:“你可以把任何知识来源变成一个复杂的数学表示,这是一个矢量,然后你可以运行相似性搜索,基本上找到彼此相关的对象,而不必手动定义它们的特征。这非常厉害。”

数据湖仓一体供应商 Dremio 的开发倡导者 Alex Merced 同样指出了矢量搜索在实现分析方面发挥的重要作用。

他表示:“矢量搜索允许你提出数据问题,而不必等待仪表板的构建。这可能是变革性的。以前,如果他们想要这些数据,他们需要进行研究。而矢量搜索可以让他们快速实现这一点。”

从历史上看,矢量搜索和存储主要用于收集大量数据的搜索驱动型企业。与图形技术一样,它们被用来发现数据之间的关系。对于业务应用程序,它们包括地理空间分析。

最终,矢量搜索和存储发展到包括 AI 模型训练。但它们仍然不是主流功能。

在过去的一年里,生成式人工智能(GenAI)改变了这一点。

大型语言模型(LLM)依靠数据来生成查询响应。矢量提供了一种快速有效的方法来发现所需的数据。

GenAI爆发

当OpenAI在2022年11月发布ChatGPT时,它代表着LLM 技术的重大改进。很明显,生成式人工智能可以帮助分析和数据管理工具的用户。

十多年来,企业内部的分析使用一直停滞不前,所有员工中只有四分之一使用分析。这些工具本身很复杂,需要大量的培训才能使用,即使是那些具有自然语言处理(NLP)和低代码/无代码功能的工具。

LLM 通过启用对话语言交互来改变这一点。它们接受过广泛的词汇训练,可以确定问题的含义,即使它不是用以前存在的 NLP 工具所需的特定业务语言表达。

这为广大新用户打开了分析的大门。

此外,LLM 可以自行生成代码,并接受训练将文本转换为代码。这可以消除一些耗时的编码,这些编码工作通常会占用数据工程师和其他数据工作者的大部分时间,以集成数据和开发数据管道。

然而,要成为企业真正变革性的技术,生成式人工智能需要了解业务。

ChatGPT 和 Google Bard 等 LLM 是根据公共数据进行训练。你可以问它们古罗马或美国独立战争,但它们不知道制造商在爱荷华州的销售额在春季是上升还是下降,它们当然无法解释为什么这些销售会朝着某个方向发展。

为此,语言模型需要专有数据。

因此,在最初围绕 ChatGPT 的炒作开始消退之后,企业意识到如果不用他们的专有数据进行增强,公共 LLM 就无法真正帮助他们,一些企业开始用自己的数据训练模型。

少数拥有大量数据科学资源的企业没有等待供应商为他们提供工具,而是开始从头开始构建特定领域的模型。与此同时,其他人则将他们的数据与现有的LLM集成在一起。

Eckerson Group的分析师Kevin Petrie说:“我们已经进入GenAI部署的新阶段,在这个阶段,企业正在将语言模型应用于他们自己的特定领域数据,以解决专门的用例。”

他继续说,他们这样做的一种方式是导出专有数据,并微调预先训练的模型。另一种本质上是采取相反的方法,导入 LLM 来丰富用户的数据提示。

无论哪种方式,矢量都是一个关键的推动因素,这就是为什么越来越多的供应商正在添加矢量搜索。

Petrie 说:“矢量数据库将特定领域的数据提供给语言模型,以支持这两种方案,尤其是提示扩充方案。”

同样,TreeHive Strategy公司创始人兼负责人Donald Farmer表示,矢量对于训练生成式人工智能特别有用。

他指出,生成式人工智能善于理解微妙之处,这尤其适用于语言。矢量不仅帮助生成式 AI 发现哪些数据(包括单词)最有可能相关,还有助于发现哪些数据最适用于给定查询。

Farmer 称:“这是传统系统无法做到的,因为它没有权重。GenAI可以使用这些权重(这些矢量)使其能够微妙地选择正确的数据。”

管道的一部分

虽然矢量已成为训练生成式 AI 模型不可或缺的一部分,但企业仍然需要将矢量化数据从矢量数据库或其他存储库中获取到模型中。

为此,很多公司正在构建检索增强生成(RAG)管道。

RAG 是一种 AI 功能,它从存储位置收集数据,以补充已用于通知应用程序的数据。目的是通过添加更多训练数据来改进应用程序的输出。

特别是,RAG 管道既通过为应用程序提供最新数据来使应用程序保持最新状态,又通过添加更多数据量使它们更加准确。毫不奇怪,由于企业的目标是提高 LLM 的准确性并训练它们理解特定领域的用例,因此很多企业已将 RAG 管道作为优先事项。

同时,矢量搜索是 RAG 管道的关键组成部分。

除了用于发现相关结构化数据的搜索外,矢量搜索还可以发现相关的非结构化数据以训练模型。这两者与其他功能(例如数据可观测性)相结合,以监控质量以创建 RAG 管道。

Petrie称:“最流行的丰富提示的方法是 RAG。”

Petrie 表示,通过使用 RAG 管道,生成式 AI 应用程序可以接收来自用户的提示,搜索矢量存储以查找对过去类似提示的响应,检索矢量,然后将它们添加到生成式 AI 应用程序中。

他表示:“在这一点上,语言模型具有相关的事实和内容,可以帮助它更准确地响应用户提问。”

由于 RAG 管道的重要性日益增加,以及矢量搜索在提供这些管道方面的作用,Databricks 在 12 月初推出了一整套新工具,旨在帮助客户构建 RAG 管道。

在过去一年中,Databricks是最积极的供应商之一,他们一直是将生成式 AI 作为重点工作。6 月,它以 13 亿美元的价格收购了 MosaicML,以增加 LLM 开发能力。10 月,它推出了 LLM 和 GPU 优化功能,旨在帮助客户改善生成式 AI 应用程序的结果。去年 11 月,Databricks 公布了将 AI 与其现有数据湖仓一体平台相结合的计划,并将其主要工具更名为数据智能平台。

图形数据库专家 Neo4j 是另一家数据管理供应商,计划增加 RAG 管道开发功能。与此同时,数据可观测性专家Monte Carlo在11月不仅为矢量数据库增加了可观测性,还为Apache Kafka增加了可观测性,Apache Kafka是一种将数据输入矢量数据库的流行工具。

虽然可能是最流行的方法,但 RAG 管道并不是将矢量化数据馈送到生成式 AI 应用程序的唯一方法。

事实上,根据 MongoDB 的 Azam 的说法,有一些方法可以为不包含矢量的生成式 AI 提供数据。然而,当矢量与数据管道中的其他功能配对时,可以改进和增强为生成式 AI 提供信息的管道。

Azam说:“GenAI应用程序仍然是一个应用程序。你仍然需要一个能够以高保真度和高性能为交易提供服务的数据库,语义搜索功能来理解相似性,以及流处理来实时处理数据。这些其他功能不会消失。矢量开辟了一个全新的使用生态系统,但它是数据层中为应用程序提供支持的支柱之一。”

有效性

尽管矢量的功能很重要,但它们并不能保证准确性。

矢量可以提高生成式 AI 应用程序的准确性。它们可以使用专有数据帮助重新训练公共 LLM,以便企业可以使用公共 LLM 的生成式 AI 功能来分析其数据。它们还可以通过确保私有语言模型有足够的数据来在很大程度上避免人工智能幻觉,从而帮助它提供信息。

但有这里有一个重要的警告。

无论使用多少数据来训练应用程序,其准确性仍然主要取决于数据的质量。如果数据不准确,应用程序也将不准确。

Dremio的Merced说:“如果你有不准确的数据,那么模型有多好都没有用。由于GenAI,今年的数据质量变得非常重要。每个人都想构建生成式 AI 模型,所以现在我们多年来一直在谈论的所有数据质量都非常重要。如果我们不做那些我们多年来应该做的困难的事情,我们就无法建立这些模型。”

因此,人们开始强调数据可观测性、数据沿袭和数据质量的其他推动因素。

Merced 称:“这些曾经是无聊的事情,可以使数据变得更好一点。但现在人们意识到他们的数据需要更好,否则他们就无法构建这些尖端工具。正因为如此,DataOps 将在2024年成为重点。”

Petrie 还指出了数据质量在确定生成式 AI 应用程序是否提供准确响应方面的重要性。

他表示:“这些东西说起来容易做起来难。几十年来,企业一直在努力解决数据质量问题。他们需要实施正确的数据可观测性和数据治理控制,以确保将准确的内容输入矢量数据库。他们还需要确保他们的矢量正确地表征其内容的特征。”

事实上,根据Farmer的说法,在确定生成式AI应用程序的有效性方面,对特征的正确表征(分配矢量的算法的质量)可能与数据质量一样重要。

如果算法写得好,并且为类似的单词(例如mutt 和 hound)分配了相似的矢量,则矢量搜索将发现相似性。但是,如果算法写得不好,并且分配给这些单词和其他单词(例如狗和犬)的数字彼此不对应,则矢量搜索将无法发现相似性。

Farmer称:“矢量搜索算法一直在改进。如果没有有效的矢量搜索,这一切都行不通。”

然而,由于算法的变幻莫测,矢量搜索并不是万无一失的,可能会导致人工智能幻觉。

Farmer 指出:“它们在获得数学上最正确的答案方面非常有效,但它们必须获得反馈并接受再培训,以了解这是否是人类最准确的。这就是为什么它们不断寻求反馈,并且不断对模型进行再培训。”

展望未来

Petrie表示,随着企业开发管道来为生成式AI模型提供数据,矢量搜索迅速成为一项关键功能后,可能会继续获得动力。

但是,除了供应商开发和提供矢量搜索功能之外,未来一年中,我们将看到更多企业实际使用它们。

Petrie 称:“我认为很多公司将采用或扩大对矢量数据库的使用,因为他们加大了对生成式人工智能的投资。”

同样,Merced预测,矢量搜索和存储功能的采用将继续增加。

他表示:“一切的总体趋势是让数据更容易使用,让数据更易于访问和更开放。所以,我乐观地认为,矢量将继续是一件大事。

Farmer指出,正在开发的新技术(例如矢量搜索)将有助于发现训练生成式AI应用程序所需的数据。

据报道,OpenAI 正在开发一个名为Q*的平台(发音为Q-Star),它比 ChatGPT 更强大,更擅长求解数学方程式。

Farmer 称:“目前有传言称新技术将问世,但提供新技术的人正保持沉默。”

他继续说道,与此同时,矢量搜索还有很大的发展和改进空间,并帮助生成式人工智能做同样的事情。

Famer表示:“在一年的时间里,我们看到了GenAI的巨大进步。这并不是由新技术推动的。这是由现有技术推动的,而现有技术绝不是巅峰时期。我们今天拥有的技术还有很大的发展空间。”

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

邹铮
邹铮

相关推荐