矢量、图形与关系数据库:选择哪一个?

日期: 2024-04-21 作者:George Lawton翻译:邹铮 来源:TechTarget中国 英文

随着生成式人工智能(GenAI)炒作席卷所有行业,矢量数据库正在复苏。拥有强大的图形和关系数据库的企业可能会质疑他们是否真的需要添加另一个数据库,但矢量数据库可以为任何有抱负的GenAI工作提供好处。

矢量数据库是专门执行相似性搜索的数据存储。顾名思义,关系数据库用于存储实体及其相互关系,并允许查询关系。图形数据库是一种NoSQL数据存储,除其他外,它擅长搜索大量文本。

Nuvalence公司联合创始人兼管理合伙人Sinclair Schuller说,在评估矢量与图形或关系数据库时,它们不是非此即彼的关系,而是亦此亦彼的关系。

矢量数据库已经存在了几十年,是搜索和推荐系统中久经考验的工具。由于GenAI服务的普及,人们对矢量数据库的兴趣最近开始增加。在中间嵌入式空间中,支撑GenAI服务的大型语言模型(LLM)将文本和其他数据作为高维矢量处理。

除传统的数据仓库结构外,矢量数据库发挥着至关重要的作用,它使企业可利用非结构化数据(例如文本、文档和图像),以与GenAILLM兼容的格式。

对于管理结构化表格数据,关系数据库仍然至关重要,而图形数据库在定义各种数据点之间的复杂关系方面具有独特的地位。很多GenAI应用程序使用结构化数据和知识图形数据以及文档,为特定企业查询提供量身定制的全面见解。

与其他基于关系和图形数据库的流行工具相比,矢量数据库可以提供大量的附加价值。

矢量、图形及关系数据库

随着数据管理团队开始关注矢量数据库、图形和关系数据库,有些团队可能会争论这是否是非此即彼的选择。

DAS42公司首席顾问Jeff Springer说,矢量数据库和图形数据库比关系数据库更专业,专为特定用例而设计。

矢量数据库擅长在自然语言处理、LLM和推荐引擎中处理高维、相似数据,这需要语义相似性搜索。它们还擅长使用大量数据进行时间序列分析,例如预测股价。

图形数据库擅长建模和分析复杂、相互连接的数据,其中了解数据点之间的关系很重要。例子包括社交网络和与欺诈检测相关的因素。从历史上看,它们通常分为两种类型:属性图和知识图。

关系数据库几乎可以处理其他一切,并且可以处理世界上大多数业务问题。公司需要关系数据库,除非他们只需要处理高维数据,这意味着他们没有任何销售、财务、人力资源或供应链部门。Springer说,在这种情况下,公司应该问问自己是否需要矢量数据库。

数据团队可能还想知道,如果他们已经在关系、图形、NoSQL和其他数据存储中使用了多个数据库模型,为什么他们还需要新增另一个数据库选项。这里的重要原因是改进围绕非结构化数据的数据分析和工作流程。

普华永道的数据和分析合作伙伴Bret Greenstein说,矢量数据库为存储和利用非结构化数据提供了最佳解决方案。它们擅长将文本、文档和图像转换为内容的矢量表示。

企业正在以越来越快的速度采用矢量来补充现有的关系和图形数据库。通过将矢量数据库纳入其数据基础设施,企业可以增强其数据管理能力,并从非结构化数据源中释放有价值的见解。

矢量数据库在根本上和架构上与其他数据库不同。Springer说,这不仅仅是一个以不同的方式建模数据的问题;矢量数据库以不同的方式存储、索引和查询数据。

此外,矢量数据库设计通常通过向集群添加更多服务器来水平扩展。相比之下,关系数据库可以通过向单个服务器添加更多资源来水平和垂直扩展。

为什么要使用矢量数据库

Schuller说,你应该将矢量数据库视为数学引擎,这可能会有所帮助。因此,这里有几个区别很重要。例如,索引在矢量数据库中的工作方式不同。矢量索引擅长帮助优化数学运算。

相似性搜索是关键

大多数矢量数据库依靠近似最近邻搜索来执行相似性搜索。相似性搜索是一个查询,结果通常按它们与查询的相似程度排序。Schuller说,其他形式的数据库可以说不适合支持相似性搜索。

在矢量数据库中,索引是围绕相似性指标专门设计的,以优化使用矢量进行搜索的工作方式。矢量是数学单位,由一组给出方向和大小或距离的值来定义。例如,如果要画一条从洛杉矶到纽约的直线,可以说这条线(或矢量)是东北方向的,2500英里长且二维的。

矢量数据库存储具有潜在数千个维度的高维矢量,这些维度近似于每个矢量打算表示的数据的特征。存储向量可以实现一种支持相似性搜索的有趣查询形式。

回到洛杉矶到纽约的例子,哪个更类似于两个城市之间的矢量:圣地亚哥到波士顿或旧金山到休斯顿?粗略地看看地图会显示是从圣地亚哥到波士顿。

Sinclair说,矢量数据库支持刚刚呈现的那种查询,除了代表文本、图像或其他形式数据的数据。

涡轮增压LLM

使用LLM的企业应考虑矢量数据库,因为相似性搜索与LLM相结合可以改善上下文的使用。

Greenstein说,矢量在GenAILLM中发挥着至关重要的作用。矢量通过测量维度中矢量之间的距离,可以比较LLM中的概念。

他说:虽然这个概念可能看起来很复杂,但它是最实用的解决方案,可以有效地扩展企业应用。

LLM中的一个实际例子可能是考虑LLM中狗和猫概念的数学描述。在讨论宠物的话题时,它们的矢量在数学上彼此接近。然而,在考虑物种主题时,猫和老虎的矢量彼此更接近。矢量捕捉不同主题中类似概念之间的关系。当应用于LLM中的所有概念和主题时,可能性会增加。

矢量对于编码提示和企业数据也至关重要,因为它们能够计算距离,并促进LLM内的有效答案。它们可帮助组织释放其数据的全部潜力,并促使LLM产生有见地和相关的响应。

矢量数据库面临不同的挑战

与关系和图形数据库相比,矢量数据库还会给现有流程带来新的挑战。根据Greenstein的说法,主要挑战包括机器可读性、工具和数据访问的成熟度以及信息检索的新方法:

  • 机器可读性。矢量数据库存储表示形式是为机器理解而优化,而不是为人类理解。它需要额外的工作来有效地索引矢量,使应用程序能够识别给定问题或提示的相关矢量。
  • 工具和数据访问的成熟度。矢量数据库支持基于角色的访问控制等概念,但数据访问的工具和方法仍在发展中。虽然存在选项,但必须考虑具体要求,并确保部署适当的工具,以促进无缝的数据访问和管理。
  • 搜索和信息检索的新方法。矢量数据库需要新的搜索和信息检索方法,特别是在处理大规模非结构化数据时,这些数据可以占所有企业数据的80%。根据每个用例定制索引和内容分块技术和技能,以实现最佳结果。

弥补技能差距

Springer说,使用矢量数据库需要当前数据分析领域中不常见的技能和能力。关系数据库和SQL是常用的,任何数据团队都可以利用它们。矢量数据库较新,有能力运用它的人要少得多。

然而,Springer说,整合传统关系工具与矢量数据库,可能有助于拉平学习曲线。例如,KX矢量数据库在跨矢量和关系域铺设工作流程和技能方面取得了巨大进展。KXSnowflake的合作可能会进一步减少很多企业在实施矢量数据库方面的挑战。

从长远来看,整合这些工具可能有助于企业考虑如何同时利用矢量、关系和图形数据库。

Schuller说:对于企业而言,创建多种数据存储架构非常有价值。结构化数据始终是一种需求,而使用矢量和图形数据库的新方法可以帮助补充现有的数据管理操作。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

邹铮
邹铮

相关推荐