在“数据仓库市场:产品之争趋于白热化”一文中,我们一同探讨了数据仓库市场中的一些主流厂商,包括Teradata、Oracle、微软以及IBM。大厂商通过并购的方式扩张自己的版图,一些开源技术,如Hadoop MapReduce以及NoSQL等都纷纷出现在商业数据仓库产品当中。在这里,我们将纵览目前数据仓库领域中所存在的一些挑战,并对未来的发展趋势做一个展望。鉴于我们所提到的问题已经逐渐成为一种普遍现象,因此建议企业CIO以及数据仓库从业人员对此给予足够的重视。
大数据
如今数据仓库面临的最大挑战就是爆炸式增长的数据量:新兴的数据类型层出不穷,更多的业务提出了实时需求,而向这部分业务提供的数据缺乏足够的敏捷性,数据仓库在业务运营以及决策支持方面显现出“疲态”,Hold住大数据成为每一个企业急需解决的难题。
为了应对实时分析和大数据的挑战,各大厂商分别将希望寄托在Hadoop身上。比如Informatica已经在今年6月发布了Hadoop的本地连接,使客户能够提供不同延迟的所有类型数据。随后,Teradata、微软以及Oracle都在不同程度上提供了Hadoop服务,据悉在明年年初,IBM也将在其数据库产品DB2中添加类似功能。
实时ETL
对于企业级数据仓库而言,对数据源进行提取、转换和加载(ETL)操作是另一个挑战,特别是实时的ETL操作。目前来看,大多数ETL工具都是基于批处理模式的,用户将根据某个特定的时间表来进行操作。如果运行在实时模式下,当交易系统在处理高峰负载的同时进行ETL操作,将对系统造成极大的压力。由于OLAP和查询工具在设计上是针对那些非实时变化数据的,所以实时操作可能会导致数据不一致的结果,无法保证数据质量。
复杂查询
据了解,目前大多数企业还都在使用传统的数据仓库工具,这些工具并不适用于对海量数据数据进行复杂的分析查询处理。要回答一个很简单的问题,通常需要长时间的重组、建立索引、分区数据并重新建立索引数据库。因此,要满足业务的所有需求,企业需要一个模块化的、可扩展的、而且达到目标性能的设计工具。”
据Forrester机构的分析师预测, 云模式的企业级数据仓库工具在未来两到三年内将被企业广泛采用,取代目前基于设备和基于软件的数据仓库工具。但出于安全方面的考虑,公有云还需要一段时间才能成熟,私有云则是一种相对现实的方式,许多企业以及公共部门都在积极地推行云计算。
新技术
像数据库内分析(in-database analysis)等技术,将改变传统数据仓库在企业内部的角色。像Hadoop MapReduce我们之前已经提到过,目前有一些平台已经通过数据库内的功能叠加、嵌入式统计算法库、预测建模集成、决策自动化和混合工作负载管理这些功能和接口对应用集成方案进行了支持,相信随着需求的不断提升,新技术的普及将全面提速。
社交媒体和非结构化数据
不能否认,社交媒体(Social Media)是推动非结构化数据和实时分析架构的一个主要因素。越来越多的企业从社交媒体信息中发现了价值,如何利用好这一部分价值,是企业数据仓库工具所需要考虑的。
假设企业中一个关键应用是使用社交媒体分析仪表板来实时监控客户的认知、情绪以及购买倾向的,为满足这些需求,下一代数据仓库工具将纳入非结构化数据源,融合数据库内的数据挖掘和文本分析,建立混合存储的体系结构,增加内存执行、分布式缓存、复杂事件处理、固态硬盘、地理数据集以及丰富的元数据。
NoSQL
大多数商业应用解决方案,都使用一个关系型数据库。非关系型的分布式NoSQL数据库更多地应用在互联网行业,同样地,一些传统行业中的客户其成长与互联网的发展是分不开的,因此这部分客户也开始提出了NoSQL的需求。
同时,作为一个开源起家的NoSQL数据库,在像金融、电信等行业中基本上还没有成功应用的案例,在它成为任何关键业务系统的一部分之前,将不得不正视并克服许多挑战。目前大型的数据库厂商开始将目光集中在NoSQL领域,Oracle推出了基于BerkeleyDB的NoSQL数据库,IBM也将在明年推出具备NoSQL功能的DB2旗舰数据库。有了大厂商的支持,NoSQL走上商业的道路似乎已经成为定局,而这也给数据仓库市场带来了一些机遇。
内存技术
随着固态硬盘的普及与发展,数据仓库工具走向内存以实现更高的性能将成为一种趋势。内存数据库满足亚秒级响应要求,这对于企业来说有着巨大的诱惑力。
目前Informatica与其他数据仓库厂商在内存技术领域有着密切的合作,如EMC/Greenplum、Teradata/AsterData以及HP/Vertica等。而SAP收购Sybase之后推出了内存分析设备HANA,Oracle在收购TimesTen后,发布类似产品Exalytics,都是内存技术的一种创新发展。
开源
当然,开源并不是新概念。在上世纪90年代中期互联网飞速发展的时候,Linux引发了自由软件运动,今天开源支持从操作系统到应用服务器再到中间件和数据库所有的一切。那么,为什么开源对于数据仓库又有何影响呢?
直到今天,商业产品的许多功能在开放源码的分析数据库中还是不可用的。但如分区、位图索引、物化视图、并行加载和查询处理等特性,在一些开源数据仓库工具中已经能够提供。
专家认为,只要有足够的时间和金钱,企业IT部门可以开发完美设计的系统,以满足任何需求。在这样的背景下,开源的灵活性没有理由不应用到数据仓库市场。
但是,一些大型厂商正在淡化来自开源世界的竞争。到今天为止我们还没有看到许多的开源数据仓库工具。我们看到一些组织试图开发一些开源工具,但很少将它们部署在企业规模上的生产环境中。因此可以说,数据仓库在开源方面还有很大的提升空间。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
探索Hadoop发行版以管理大数据
Hadoop是一种开源技术,它也是数据管理平台,现在它通常与大数据分布相关联。它的创建者在2006年设计了原始 […]
-
SQL Server 2019改进Linux、容器支持
紧随其SQL Server 2016和2017版本后,微软正在准备发布SQL Server 2019,该公司在 […]
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
SQL Server 2019预览版向DBMS引入Hadoop、Spark和AI
微软本周继续改进其SQL Server数据库平台,从关系数据进一步扩展到各种数据类型。 近日该公司发布SQL […]