Cockroach Labs 近日推出矢量搜索功能,旨在使客户能够访问和操作非结构化数据,以训练生成式人工智能模型和应用程序。
此外,该供应商推出了一款新工具,旨在通过减少查询时间和优化使用来提高效率,同时,该供应商宣布CockroachDB Cloud的新定价等级。这些新功能都是Cockroach Labs的CockroachDB 24.2更新的一部分。
在过去的两年里,随着企业对生成式人工智能的兴趣激增,矢量搜索已成为发现数据(其中大部分是非结构化数据)的常见手段,这些数据用于检索增强生成(RAG)管道,以训练生成式人工智能工具。因此,TechTarget企业战略小组分析师Stephen Catanzano表示,添加矢量搜索功能对Cockroach Labs等数据库供应商很重要。
他说:”矢量搜索是CockroachDB的关键进步,因为它允许用户处理非结构化数据。通过添加矢量搜索,Cockroach使用户能够更智能地管理数据。这一点尤为重要,因为企业越来越依赖人工智能,需要有数据库能够处理矢量搜索,以提高性能和准确性。”
Cockroach Labs公司总部位于纽约市,这是一家提供云原生SQL数据库平台的数据库供应商。
迄今为止,该供应商已筹集了超过6亿美元的资金,包括2021年1月的2.78亿美元和2020年5月的1.6亿美元。与此同时,竞争对手包括其他数据库专家,例如MongoDB和Yugabyte,以及来自Amazon DynamoDB和Microsoft SQL Server等科技巨头的数据库产品。
新功能
OpenAI在2022年11月推出ChatGPT标志着大型语言模型(LLM)功能的重大进步。
从那时起,很多企业将开发生成式人工智能功能作为优先事项,将LLM功能与自己的专有数据相结合,以开发了解其业务的模型和应用程序。
通过使用此类模型和应用程序,企业可以开发生成式人工智能助手,使任何技能水平的用户都能使用自然语言处理来查询和分析数据,从而做出明智的决策。此外,企业可以对模型和应用程序进行编程,以执行重复性任务,让数据工程师和其他专家专注于更重要的工作,从而提高这些专家的效率。
然而,将LLM的功能与专有数据相结合,以训练生成性人工智能工具并不简单。
如果没有大量的高质量数据(有时即使有高质量的数据),生成式人工智能工具容易出现人工智能幻觉,这些幻觉是不正确的,有时是奇怪的输出,如果不被人类发现,可能会产生严重的后果。为了给模型和应用程序提供足够的数据来减少幻觉的可能性,需要非结构化数据。
文本、图像和音频文件等非结构化数据估计占所有数据的80%以上。然而,如果没有某种形式的结构,数据就很难操作。矢量是算法自动分配的数据的数值表示,为非结构化数据提供了结构,以被搜索和发现。
因此,为了满足想要开发生成式人工智能工具的客户需求,很多数据库专家和其他数据管理供应商增加了矢量搜索和存储功能。
例如,Cockroach Labs 的竞争对手MongoDB和Couchbase现在提供矢量搜索和存储,而科技巨头AWS和甲骨文则将矢量搜索和存储作为其数据库战略的核心。
BARC U.S.分析师Kevin Petrie表示,现在,Cockroach Labs 正在引入自己的矢量搜索功能,增加了对任何数据库供应商至关重要的工具,因为企业对生成性人工智能的兴趣激增。
CockroachDB的矢量搜索功能是通过与pgvector的集成实现的,pgvector是PostgreSQL数据库的开源工具,使用语义建模来改善矢量搜索。通过集成,Cockroach Labs 的客户现在可以跨大型矢量数据集进行语义搜索,以发现与生成式人工智能模型和应用程序(例如推荐引擎和人工智能助手)相关的数据。
Petrie说,鉴于生成式AI的受欢迎程度,矢量搜索已成为数据库供应商的必备功能。
他继续说,在典型的RAG工作流程中,矢量搜索是企业将生成式人工智能语言模型应用于自己的专有数据的一种方式。矢量数据库查找和检索非结构化数据,例如文本或图像,然后将其添加到管道,以使生成式AI语言模型不太可能产生幻觉。
Petrie说:“在意识到到这个机会后,很多数据库供应商正在添加矢量搜索功能。”
有些供应商已经拥有矢量搜索功能一年多,还有像Pinecone这样的供应商专门从事矢量数据库,而Cockroach Labs 才刚开始使用矢量搜索。Petrie补充说,虽然推荐引擎和人工智能助手是两个目标用例,但还有其他用例。
他说:“我很想看看他们在即将发布的公告中提供哪些额外细节,关于功能、目标用例和理想数据集。”
除了新的矢量搜索功能外,Cockroach Labs 还为其数据库的完全托管版本推出新的定价结构,还提供了一个自我管理的版本。
该供应商现在提供基本层、标准层和高级层的CockroachDB Cloud。此前,该供应商仅提供无服务器和专用层。
基本和高级层基本上取代了无服务器和专用层,而标准代表这两者之间的新层,为客户提供三个完全托管的选项。
基础层开始是免费,如果客户每月超过10千兆字节的存储空间和5000万个请求单位,就会产生费用。标准层收费为每两个虚拟CPU(vCPU)每月146美元起,高级层每两个vCPU每月295美元起。
Cockroach Labs公司首席执行官Spencer Kimball表示,除了简单地重命名两个定价选项,并添加一个新的定价选项外,新的定价层级还旨在更好地匹配企业的工作量需求和定价层级。
例如,基本层可能最适合具有入门级工作负载的企业,而高级层可能适合需要高安全性和可扩展性的企业。同时,标准层提供平衡,既可以享受基本层的成本效益,又可以提供高级层的效率、可扩展性和安全性。
Kimball说:“标准层的引入使企业能够整合一系列工作负载,同时优化成本和性能。”
Catanzano 同样表示,增加新的定价层级意义重大,可为现有和潜在客户提供灵活性,使他们可随着工作量需求和预算变化进行调整。
他指出:“这简化了云的采用,并使更广泛的用户能够访问CockroachDB,支持可扩展性–从初创企业到大型企业。”
除了新的矢量搜索功能和新定价外,Cockroach Labs 还推出了Generic Query Plans,这个工具可缩短查询时间,通过使用更少的计算能力,使复杂查询更高效、更便宜。
Kimball表示,客户反馈和对市场趋势的回应为增加矢量搜索和其他新功能提供了动力。
很多企业正在将生成式人工智能作为优先事项。为了满足他们的需求,Cockroach Labs 需要添加矢量搜索功能,使这些企业能够查找和操作相关数据,并提高其数据库的性能,以处理人工智能所需的工作量。
Kimball说:“我们设计了CockroachDB,通过确保我们的数据库准备好处理这些工作负载的规模和复杂性来满足这些不断变化的需求。”
展望未来
Kimball表示,随着CockroachDB 24.2的推出,Cockroach Labs计划继续增加功能,使客户能够运行人工智能和机器学习工作负载。
很多企业才刚开始使用人工智能和机器学习,工作量大小和复杂性都会随着时间的推移而增加。
他称:“我们的目标是为企业提供一个数据库,该数据库不仅能满足当前的需求,而且能够应对未来的挑战,使我们的客户能够在快速发展的环境中保持领先地位。”
Petrie表示,专注于增加和改进功能是明智的做法,以使客户能够开发生成式人工智能模型和应用程序。
由于Cockroach Labs 现在才开始矢量搜索,该供应商必须展示其对实现高级应用程序开发的承诺。
Petrie说:“我很想看看Cockroach在支持RAG工作流程方面有多认真。如果是这样的话,我预计会看到更多公告–关于用矢量和关系数据丰富生成式AI语言模型提示的优势。”
Catanzano同样建议,Cockroach Labs 继续为有兴趣开发生成式AI工具的客户增加支持。就像与pgvector的集成是Cockroach Labs 添加矢量搜索的方式一样,与其他供应商的集成可以成为快速开发人工智能和机器学习生态系统的一种手段。
Catanzano说,为了继续增长,Cockroach Labs 可以进一步集成更多人工智能驱动的数据管理功能,例如增强对机器学习工作负载的支持和更无缝的多云功能。
他继续说,为开发人员添加新工具和数据可观察性等功能,也可以使Cockroach Labs 受益,并帮助供应商从竞争对手中脱颖而出。
Catanzano说:“这些步骤可以帮助Cockroach Labs 巩固其在云原生、弹性数据库方面的领导地位。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
翻译
相关推荐
-
Java、JDBC和Postgres
现在越来越多的企业开始部署PostgreSQL,为什么呢?当你看到这个许可开源数据库所提供的功能,你就不会对此 […]
-
5个元数据管理最佳实践
在数据驱动的环境中,元数据不仅仅是数据的副产品;还是综合数据治理战略的关键组成部分。企业需要适当的元数据管理, […]
-
如何使用数据治理成熟度模型
如果没有强大的数据治理,数据就无法产生有价值的见解以及改善决策。数据治理成熟度模型可帮助企业评估当前的成就水平 […]
-
Databricks推出生成式AI工具,包括AI助理
在2023年7月,Databricks公司首次公布开发生成式AI助理的计划,现在他们已经正式推出这个新功能。 […]