NLP和AI助力自动化数据仓库

日期: 2022-02-06 作者:Lisa Morgan翻译:邹铮 来源:TechTarget中国 英文

随着数字业务不断加速,企业正在自动化其数据仓库,以在人工智能和机器学习的帮助下加速其数据到见解的周期。增强分析开始发挥作用,ETL(提取、转换和加载)等传统工具也是如此。总的来说,越来越智能的数据管理工具有助于使数据更易于访问和使用。

增强分析影响

就数据分析而言,增强分析是当前最先进的技术。用户无需在SQL中输入查询,只需使用自然语言即可。

增强分析平台的另一个显着因素是,它超越过去的分析,涵盖数据准备甚至一些数据仓库功能。根据Gartner研究副总裁兼分析师Mark Beyer的说法,增强分析的作用是发现数据使用模式,这些模式决定谁在访问什么数据、多久访问一次、以何种组合方式以及他们整体参与的加速或减速率。

Beyer 称:“增强分析只能从模式和以前的活动中学习。它们可以在内容分析级别添加数据分析,并推断不同数据集中的相似数据可能是相同的数据。任何推理模型都必须经过训

练以识别长期模式,需要时间和很多用例,与相同的数据交互,以显示模式的可变性以及哪些条件场景驱动不同的变化。”

增强分析平台提供商Qlik提供一套数据管理工具,这些工具打包在一个SKU中。Qlik Replicate是一种通用数据复制和摄取工具,它与数据湖和自动化工具Qlik Compose集成,以启用和自动化批处理和实时数据feed-从源系统到数据仓库和湖。

Qlik Enterprise Manager集中管理整个企业的数据复制和管道自动化,为设计、执行和监控Replicate和Compose任务提供单点控制。

所生成的数据结构和元数据与Qlik Catalog共享,因此用户可以直接从Catalog将数据提供到Qlik Sense增强分析平台或类似平台,例如Power BI和Tableau。

Qlik公司产品营销总监Anand Rao表示:“Qlik支持在本地和云端的很多数据源和目标之间批量和连续迁移数据。它支持从云迁移到平台现代化的用例,并与所有主要云供应商紧密集成。”

增强分析平台提供商Sisense提供一整套数据管理功能,包括摄取、手动和AI准备、建模、治理和编目。这些功能中的任何一个都可以替换为可能在指定领域更专业的同类最佳服务。

Sisense现场工程高级副总裁Ryan Segar说:“Sisense最独特之处是我们将其构建为真正的微服务解决方案,因此每个工作流程都可以完全补充或替换。”

例如,通过ETL,客户可以使用Stitch、Fivetran、CData或Matillion。对于数据仓库或数据湖,他们可以使用Redshift、Snowflake、SingleStore、Databricks或BigQuery。对于治理和编目,他们可以使用Collibra、Alation、BigID、Alteryx、Trifacta等。

Segar称:“基于机器学习的数据准备很容易成为我们在该领域看到的最大趋势,人们花费大量时间梳理表格来执行像重复数据删除这样简单的任务,而这可以通过自动化来消除。”

神经语言编程走向前沿

神经语言编程 (NLP) 被添加到数据分析平台中,因此不太懂技术的用户也可以访问和分析数据,例如“群众数据科学家”。

Rao称:“NLP了解用户的意图,并解析搜索字符串,以识别分析查询的关键属性。然后利用AI为用户生成最佳见解,可以对其进行改进,并添加到仪表板中以进行进一步解释。同样,对自动化数据仓库的查询可以从NLP中受益,允许业务分析师请求数据和分析计算,而无需复杂的SQL查询。”

Rao将数据仓库自动化定义为创建和导入数据模型、跨不同数据存储执行数据类型的自定义映射、遵守数据验证和质量规则以及创建数据仓库或派生数据集市。NLP驱动的查询生成器工具最初可用于更新工作流中的单个任务,并最终替换不太复杂的下游任务。

Rao称:“NLP驱动的工具必须能够生成典型的OLAP(在线分析处理)查询,以使用请求的数据集创建数据集市。”

Segar表示,虽然语义层使自助服务数据变得可访问,但不断增长的数据量和类型已经暴露它的致命缺陷。

Segar指出:“它仍然需要人类来创建和维护。NLP一直受到数据编目进步的推动,而ML改变了游戏规则,该技术使系统可以重新训练自己,以学习全球和本地案例中使用的商业词汇。如果部署得当,我们可以自动化数据管理中最困难的任务:识别每个用户的独特性,而不是训练他们以不同的方式思考。”

根据Gartner的Beyer的说法,如果该语言被分析为多次出现的一致使用,并且具有主语、宾语、谓词 (SOP) 结构,那么它可以被解析为代码输入。例如,计算代码总是具有相同的SOP结构:

  • 主语源自部门、业务部门或任务功能要求,例如“患者入院”。
  • 宾语是要填充的所需属性或者内存数组,例如“患者入院的日期与时间”。
  • 谓语是语言中的动词短语,例如“入院的患者”。

Beyer称:“因此,NLP可以编码为一个程序模块,用于将患者入院捕获为主语。宾语是患者标识符、医院、病房标识符(如果适用)以及患者被记录为存在的日期和时间。谓词是捕获数据输入。在后端,增强系统可能会根据以前的用例知道如何使用这些数据。它还可以学习典型的错误类型,并使用数据质量或查询计划规则作为第二个谓词来创建用于筛选它们的控件。”

最重要的是,随着时间的推移,在人工智能和机器学习的帮助下,数据仓库将继续变得更加自动化。增强分析是该架构的一部分,它通过使更多人能够收集重要的上下文见解来帮助从数据中挖掘价值。

 

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

邹铮
邹铮

相关推荐

  • Java、JDBC和Postgres

    现在越来越多的企业开始部署PostgreSQL,为什么呢?当你看到这个许可开源数据库所提供的功能,你就不会对此 […]

  • 5个元数据管理最佳实践

    在数据驱动的环境中,元数据不仅仅是数据的副产品;还是综合数据治理战略的关键组成部分。企业需要适当的元数据管理, […]

  • Cockroach Labs增加矢量搜索,更新定价选项

    Cockroach Labs 近日推出矢量搜索功能,旨在使客户能够访问和操作非结构化数据,以训练生成式人工智能 […]

  • 如何使用数据治理成熟度模型

    如果没有强大的数据治理,数据就无法产生有价值的见解以及改善决策。数据治理成熟度模型可帮助企业评估当前的成就水平 […]