结合知识图谱与数据库发现新见解

日期: 2023-07-14 作者:George Lawton翻译:邹铮 来源:TechTarget中国 英文

在新兴数据管理运营的背后,驱动力是AI、自然语言处理和语义搜索应用程序。数据团队可以将知识图谱与这些工具结合使用,以获得传统数据库可能无法提供的见解。

知识图谱可帮助将上下文、关联性和本体整理到数据管理系统中。它还对现实世界实体之间的关系进行建模,以提高各种数据处理任务的准确性和洞察力。

知识图谱通常在图数据库之上运作,以描述图数据库中信息的本体。这种组合提供了一种更丰富的方法来表征基础数据对AI应用程序的意义,而不是使用传统数据库(例如关系数据库)。与传统数据库相比,知识图谱增强型数据库也更容易为业务用户使用和理解。

知识图谱与数据库

采购自动化平台Scoutbee公司首席执行官Gregor Stühler说,知识图谱和传统数据库之间的关键区别在于每个数据库如何存储数据。

传统数据库将数据存储在具有预定义架构的表中。它按行和列整理数据,并使用主键和外键在实体之间建立关系。

Stühler说:“虽然在存储结构化数据和处理基本查询方面,传统数据库很有效,但它们可能难以捕获复杂的关系,并从数据中推断出新知识。”

知识图谱是相互关联的实体及其关系的网络,表示为节点和边缘。它会整理信息以对现实世界的对象及其关系进行建模,从而将该信息传递给使用它的机器。

知识图谱和图数据库

知识图谱与图数据库协同工作。就其本身而言,图形数据库映射数据集之间的关系,就像有人在白板上绘制系统一样。知识图谱位于该数据库的顶部,用于表示复杂的现实世界实体,并说明它们之间的关系。图形数据库和知识图谱的组合可帮助非技术用户可视化和分析所需的数据。

企业搜索平台Coveo公司机器学习平台的高级产品经理Gabriel Montagne说,我们可以将知识图谱视为一种知识库。知识图谱使用图结构数据模型来整合数据,并存储实体、事件、情况或抽象概念的相互关联的描述。它还对术语背后的语义进行编码。知识图谱包括一个本体,这个本体使人类和机器能够理解和推理其内容。

图形数据库使用图形结构进行语义查询–对用于表示和存储数据节点、边缘和属性。但是,图形数据库通常不包含本体。因此,我们需要做更多的工作来存储和推理知识图谱中的复杂知识表示。整合知识图谱可以形成知识图谱数据库。

在现实场景中获取知识

提供农业管理平台的Cropin与知识图谱数据库合作,以改进其AI工作流程。数据科学和人工智能副总裁Praveen Pankajakshan说,虽然大部分信息都是统计数据或文本,但该公司正在越来越多地探索从图像和场景中获取知识的方法。Cropin 必须管理这些数据源,以训练更好的AI算法。

Pankajakshan的团队正在开发一种作物知识图谱,该图谱可以自动将原始图像转换为系统化知识,包含500多种作物和10000种作物品种。此过程将隐藏在数据中的信息转换为链接格式,并以机器就绪的格式将其存储在知识图谱中。工具和平台可以摄取数据,并利用各种信息提供见解,例如有关地理、气候条件和土壤类型、耕作生命周期和其他因素的信息。

例如,微妙的颜色变化意味着玉米植物与大豆的不同。借助知识图谱,Cropin可以将这些变化的含义输入到各种AI算法中。因此,该公司可以为农民提供最佳的浇水、肥料和害虫防治干预措施。

该公司还可以将知识图谱中的信息与实时数据相结合,帮助农民了解问题,并在耕作实践和土地管理方面做出更好的决策。

知识图谱的优势

Stühler说,图形技术对于存储和可视化具有复杂关系结构的数据非常宝贵。与传统数据库相比,知识图谱更容易考虑新数据点。例如,他的团队正在开发应用程序,以绘制跨越多个国家/地区的供应链中的风险。数据表对于此类用例不实用,而图形支持高级分析或机器学习。

图形技术有助于整理数据和关联,以便随时可用。当用户需要拉入数据时,不需要额外的工作来计算或映射任何内容。如果想要查看供应链风险,可在知识图谱中添加一个与特定城市节点相关的风险节点。相比之下,表格通常对于静态数据更有意义,这些数据不复杂或与其他数据点没有关系的。

知识图谱还可以连接有关内部客户、供应商和第三方的数据点。然后,数据科学家可以运行算法来分析关系并得出结论。

Stühler说,大型语言模型(LLM)可以理解和总结内容,同时创建和预测新内容,从而增加巨大的价值。LLM前端改善了交互,而知识图谱则基于与其他LLM的交互对数据进行语义搜索。

知识图谱的用例

决策智能平台Kobai公司联合创始人兼首席技术官Ryan Oattes说,数据团队可以使用多个指标来评估哪些用例最适合使用知识图谱。根据Coveo的Montagne的说法,知识图谱最适合存储和可视化复杂的相互关联的数据,这些数据在传统数据库中难以表示。

非常适合知识图谱的信息示例包括:

  • 基因、蛋白质和疾病之间复杂相互作用的生物医学数据模型,使研究人员能够识别潜在的药物靶点,并开发新的治疗方法。
  • 财务数据,例如股票价格、市场趋势和投资组合,用于分析市场趋势,并根据广泛的数据源做出投资决策。
  • 社交网络数据,例如用户个人资料、关系和兴趣,用于根据用户兴趣和联系个性化内容和推荐。
  • 产品数据,例如功能、规格和评论,用于管理产品开发,并确保跨多个渠道和平台的一致性。
  • 信息之间的高度互联性,例如维护工单、生产线或飞机中的机器与促进工作所需的备件之间的复杂关系。
  • 系统化信息层次结构,以跟踪零件、系统或制造过程的性能。

如何部署该技术

知识图谱需要新的工作流程才能获得最佳结果。领域专家可以帮助它开始。

在最好的情况下,知识图谱包含术语和结构,可反映人们对给定领域的理解,而不是从数据存储中衍生出来的东西。这允许最大程度的协作和重用,这是从知识图谱中获得价值的两个最大机会。

该架构必须描述生态系统,以确保它很好地反映现实。

Stühler说:“知识图谱的关键取决于其本体的力量。”

另外,考虑LLM如何帮助构建本体。LLM可以帮助企业了解模式和主题的结构,并以有意义的方式描述生态系统。

LLM 还有助于捕获图形数据库中可能发生的重复节点。这些模型可以管理、构建和改进知识图谱。

Stühler说:“LLM最终将取代我们存储和与数据交互的方式。但从聚合、反思和描述的角度来看,知识图谱将不断发展。”

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

邹铮
邹铮

相关推荐