企业图形数据库用例前景

日期: 2019-06-02 作者:George Lawton翻译:邹铮 来源:TechTarget中国 英文

亚马逊、LinkedIn和Netflix等主要面向消费者的平台都在图形数据库上运行其大部分数据架构。但是,这种技术并没有吸引更传统的企业,尽管该技术可很好地存储用户、用户行为和产品之间的关系。

事实上,安永咨询服务业务执行总监Michael Moore说,目前数据处理工作量中只有约2%到3%在图表数据库上运行。然而,随着企业开展更多分析项目,并需要了解人与产品之间联系,他预测企业中的图形数据库用例将迅速增加,在未来10年将占数据处理工作量的50%。

Moore在最近的GraphTour旧金山会议上接受采访时说道:“我相信所有的首席信息官都应该关注图形数据库,因为它将继续发展。”

图形数据库已经拥有全面的供应商市场。领先的图形数据库平台包括Neo4J、DataStax和TigerGraph提供的产品。AWS、谷歌和微软还在其云平台上提供本机图形数据库工具。

图形数据库的元素

作为NoSQL数据库的一种,图形数据库被用于以突出实体之间的连接。该技术的经典应用是社交媒体网络,其中数据库存储着关于谁与谁连接的信息。

该技术允许企业获取整个业务数据并以链接到业务功能的方式在数据之间建立逻辑连接,从而提高分析模型的速度和精度。

图形数据库可压缩更大的数据集,以便在内存数据结构中运行。这使得企业更轻松地执行复杂查询,以发现业务功能之间的间接关系,这些业务功能可能改善或降低利润、效率或性能。

例如,两个从未购买过相同东西的人可能仍然具有足够相似的购买习惯,这种数据可能改善对这两个人的产品推荐。通过利用图形数据库技术,保险欺诈团伙可使被保险方的每次索赔都看起来不同,尽管重复使用相同的医生、律师或修车行。反过来,欺诈分析引擎也可利用图数据库技术可揭露这些模式。

改善业务建模

安永公司一直在与企业合作致力于图形数据库用例,涉及数据发现、数据验证、欺诈检测、供应链分析、推荐引擎、反洗钱以及提供客户的360度视图。

Moore说,除了上面提到的功能外,图形工具还可以将系统中没有在任何其他地方同时存在的东西关联起来,创建系统记录。

他表示:“通常情况下,企业会在大型数据湖上部署图形,并将其用作统一数据层。”

由于数据可以构建为映射业务流程,因此,图形数据库技术还可以简化开发人员和业务所有者之间的对话,因为数据是基于企业已熟知的指标。图形工具还可以更轻松地为需要新业务指标的新应用程序重构数据。在传统数据库中,业务指标通常需要通过连接数据库表中的行来计算,这些数据库表用以优化数据写入数据库的速度(而不是连接)。

挑战

Moore警告说,对于很多特定类型的查询和分析而言,图形数据库非常有用,但图形工具也会给CIO带来一些挑战。数据工程师和业务专家需要学习新的技能集并创建新的工作流程,以定义和优化用于这些应用程序的图形数据模型。

经典的SQL数据库经过优化,可以节省内存和CPU。它们也是很多应用程序(例如ERP)的最佳技术,ERP等应用程序涉及大量的柱状添加。但是连接数据库表以执行新类型的查询会给SQL数据库带来相当大的开销。因此,新类型的查询可能受到内存容量的限制。

相比之下,如上所述,图形数据库可加速分析和缩小数据存储,预先计算这些关系。Moore称,在一个项目中,他设法将一个5 TB的SQL数据库缩减为一个2 TB的图形数据库。

在图数据库用例中,一个重大挑战是它们在写入数据库时​​性能下降。这是因为数据库必须在提交事务时计算新数据和现有数据之间的关系。

但是Moore说,图形数据库的好处超过了限制:“与图形数据库带来的查询加速相比,这是很小的代价。”

从小处着手建立专业技能

与大多数尖端技术一样,CIO应该从小处着手,构建文化和流程以有效利用图形数据库。Moore与很多企业合作,将技术引入更传统的数据管理团队。这通常涉及从概念证明开始,实施试验,然后将实际用例推广到生产中。

他表示,一个好的入门项目应该包括三到四个数据源。同样重要的是,应保持命名约定简单,以便业务经理可以轻松理解数据所代表的内容。

在试验阶段,可从云中运行的预配置图形数据库开始,这可能帮助简化操作。在前期,应专注于创建最小可行产品,然后再将其扩展到更多数据域和应用程序。

该团队还需要花时间清理试用期间使用的数据。Moore表示,对于任何大型数据环境,数据清理总占实际工作的大约80%。数据工程师必须弄清楚数据的质量以及数据如何映射到特定的业务问题。

新兴图形数据库用例:改进AI

现在企业开始探索使用图形数据库来改进AI模型。

Neo4j图形分析和AI项目经理Amy Hodler表示,早期用例涉及:在称为特征工程的过程中,改进数据被摄入AI培训工具的方式。例如,旧金山加利福尼亚大学的研究人员开发了Het.io,这个工具可构建生物医学信息以突出连接。该方法被用于更好地将基因与疾病相关联,以及预测现有药物的新用途。

与此同时,其他研究人员正在研究如何利用图形数据库来使AI模型更加透明和可解释。例如,eBay一直在尝试使用这种技术来改进其推荐引擎。

在未来,Hodler希望看到数据科学家直接在图形数据源上运行机器学习工作负载。

Hodler称:“添加背景信息以帮助AI归纳信息,并使其更广泛适用的想法对机器学习和AI解决方案的未来发展非常重要。”

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

邹铮
邹铮

相关推荐

  • Java、JDBC和Postgres

    现在越来越多的企业开始部署PostgreSQL,为什么呢?当你看到这个许可开源数据库所提供的功能,你就不会对此 […]

  • 5个元数据管理最佳实践

    在数据驱动的环境中,元数据不仅仅是数据的副产品;还是综合数据治理战略的关键组成部分。企业需要适当的元数据管理, […]

  • Cockroach Labs增加矢量搜索,更新定价选项

    Cockroach Labs 近日推出矢量搜索功能,旨在使客户能够访问和操作非结构化数据,以训练生成式人工智能 […]

  • 如何使用数据治理成熟度模型

    如果没有强大的数据治理,数据就无法产生有价值的见解以及改善决策。数据治理成熟度模型可帮助企业评估当前的成就水平 […]