Oracle大数据发现(Big Data Discovery)技术全解

日期: 2015-06-09 作者:Robert Sheldon翻译:曾少宁 来源:TechTarget中国 英文

Oracle Big Data Discovery(大数据发现)可能正是组织解决大数据挑战时所需要的产品,但是这些一体化产品仍然处于早期。

二月份,Oracle发布了它的最新大数据产品Oracle Big Data Discovery。Big Data Discovery一直被奉为Hadoop数据查询、转换和分析的端到端解决方案,它交付了一个一体化产品软件包,允许用户从Hadoop集群中发现相关联的数据,通过挖掘数据发现其潜在价值,以及通过转换数据达到净化和丰富数据的目标。以此为基础,用户可以通过分析数据获得新趋势和作出战略决策,也可以将结果共享给团队成员,以执行协作和更进一步的分析。

Oracle推出了Big Data Discovery产品,帮助公司解决所遇到的大数据问题,因为他们无法管理大师的信息和收集有意义的趋势,而且通常根据不清楚该如何开始着手,更不用说后面的事情了。雪上加霜的是,传统商业智能工具往往局限于定义完好的关系结构,但是缺少高效处理大数据分析的能力。

认识Big Data Discovery产品

根据Oracle的介绍,Big Data Discovery能够解决这些问题,同时给业务分析师和数据科学家提供发现游程。Big Data Discovery承诺能够加快分析过程,因此用户可以减少准备数据的时间,留出更多的时间用于分析数据。由于主要关注Hadoop,所以Big Data Discovery解决了A、B端面的技术障碍,达到了Oracle所谓的“Hadoop可视面孔”。

Oracle在Big Data Discovery的设计上支持可视化分析功能,既不需要用户学习复杂的流量,也不要求有特殊的专业知识。Big Data Discovery允许用户按数据类型可视化属性和轻松决定哪些属性与他们的分析关系最密切。然后,他们可以根据用户的特定需求对属性进行排序,实现信息的优先级划分。Big Data Discovery提供了交互式目录,可用于查找数据、查看数据集汇总和通过简单易用的搜索与导航特性去检索数据。

根据Oracle的介绍,分析师将能够直接向数据提问,然后像在线购物一样轻松地获得想要的答案。它的界面提供了一些自助向导,支持鼠标拖放操作,并且有许多其他帮助将原始数据转换为多样化、交互式可视化和仪表板的特性。此外,Big Data Discovery也完美地融入Oracle的大数据架构,能够集成其他一些工具,如Oracle R、Oracle Exadata和Oracle Big Data SQL。

数据发现的五个步骤

Oracle将Big Data Discovery分析流程划分为5个基本步骤:查找、挖掘、转换、发现和共享。

为了获得他们所需要的信息,分析师可以使用交互目录访问Hadoop的原始数据,但是完全不需要理解其底层结构。事实上,他们只需要关注于如何获得分析所需要的特定信息。交互目录会将数据组织为可视化数据集合,如博客、客户快照或品牌忠诚度调查。按照这种方式,分析师就可以确定他们所需要的信息分类,然后再深入分析这些数据的细节。

挖掘步骤就是深入分析数据的流程。每一个数据集都会被分割为一些属性,它们可以以可视化方式进行存储和组合,以便更方便地理解它们的关系。分析师可以按数据的潜在用途来组织数据;将最关注的属性移到最顶部,或者试验各种不同的属性组合。挖掘步骤可以帮助分析师快速理解数据质量和确定其整体潜在价值的关键因素。

转换步骤则允许用户通过大量用于转换与充实数据的库来修改数据。例如,用户可以通过对一些值执行规范化或分组操作来净化数据。Big Data Discovery提供了一个类似于电子表格的界面,可用于定义数据的转换方式。此外,用户可以通过应用一些特性来充实数据,如推断语言、位置、检测话题或主题等。Big Data Discovery原生支持所有的转换操作。

发现是指用户将数据加入或混合到仪表板和可视化的步骤,其范围包括表格到详细的图。这个界面包含一个可供用户查找数据模式的搜索工具,以及一个用于浏览搜索结果的导航特性。在任何时候,分析师可以增加或关联更多的数据以扩大结果,或者应用额外的过滤器以优化数据。

最后一步是将结果分享给团队的其他成员,以实现项目内协作。用户可以分配其快照书签和图库,以进一步共享分析。除此之外,他们还可以将转换后的数据发布回Hadoop,以供Oracle R或Big Data SQL等产品使用。

Big Data Discovery背后的技术构成

Big Data Discovery包含3个主要组件——Studio、Dgraph&Data Processing,再加上Hadoop集群,共同构成一个完整的数据解决方案。在Hadoop方面,Big Data Discovery使用了Cloudera的Hadoop发行版,它包含许多支持Big Data Discovery功能的组件,如Cloud Manager、ZooKeeper和Spark。

Big Data Discovery的Studio组件是一个前端Web应用,用户可以用它访问Hadoop数据。Studio包含分析师在查找、挖掘、转换、发现和共享数据时所需要的全部特性。它是一个基于Java的应用程序,可以运行在多个节点上,从而支持负载均衡和高可用性。Big Data Discovery将大部分的Studio项目及配置数据存储在一个关系数据库中。

Studio与Dgraph通信,后者将请求转发到Hadoop集群上。Dgraph组件还负责处理缓存和业务逻辑。与Studio类似,Dgraph可以运行在一个节点上,也可以运行在一个集群上,然后使用CDH ZooKeeper处理集群服务。对于Big Data Discovery发现的每一个数据集,它都会将记录和模式加载到Dgraph上。

Big Data Discovery的最后一部分是Data Processing(数据处理)组件,它是一组负责处理大部分复杂处理的过程和作业,如抽样、剖析和充实数据。这其中的许多流程都直接运行在Hadoop节点上,然后使用Spark运行所有的Data Processing作业。其中一个重要的Data Processing组件是Hive Table Detector(Hive表检测程序),它负责监控Hive数据库中新增或删除的表。如果Detector发现数据库有变化,那么它就会启动一个Data Processing工作流。

大数据的问题不断出现,而数据每天都在增加。但是,组织仍然还不是很清楚该如何应对,总是遇到一个又一个的问题。虽然Big Data Discovery承诺改变这种局面,但是它仍然处于发展早期,因此它还没有经过能够展现其真实功能的现场测试。毫无疑问,它在一些领域具有优势,但是在其他一些领域则需要做得更好。即便如此,它也说明了一个事实,大数据仍然属于重要业务,而且我们将在不久的未来看到其他一些一体化产品出现。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

曾少宁
曾少宁

TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

相关推荐