从以往的经验来看,企业数据仓库是一个十分昂贵的投资。无论部署在什么样的数据库之上,企业都需要花上百万的钱才能让它正常地运转下去。
实际上,虽然业界对它的定义有着不同的看法,但数据仓库基本上就是一个包含抽象交易数据的数据库,用来做业务决策的支持。企业会在这些数据基础上使用分析工具,然后再通过不同的方式展示给企业决策者,比如报表以及可视化数据等。
在过去,Teradata、Oracle等IT巨头基本上形成了对数据仓库市场的垄断。而随着云解决方案的出现,比如公有云服务提供商的数据仓库存储,使得构建部署数据仓库的成本得到了极大程度的降低。
亚马逊推出的Redshift 服务对于传统数据仓库厂商势必会造成一定的冲击,它改变了游戏规则,用户可以在云端来构建自己的数据仓库系统。通过基于列式的存储技术,RedShift能够提供快速的查询性能,而这一技术已经被广泛地应用中企业数据仓库领域。
列式数据库是一个概念或者说是一个架构。许多列式数据库都是在传统的行式关系型数据库基础上构建的。它能够在数据库表中存储1-2个列的信息,在此基础上添加必要的元素来对列数据进行访问。RedShift就是典型的例子,但它的特别之处在于你能够通过公有云服务来“消费”数据。
列式数据库存储能够提升I/O效率,将查询并行地分布到多个服务器实例上。由于服务实例能够在AWS服务上按需扩展,因此用户可以以自助的方式来对服务实例进行调配从而支撑数据查询,甚至实现自动化。
RedShift使用了标准化的PostgreSQL、JDBC 和ODBC驱动,能够支持用户使用熟悉的SQL语言控制查询。数据加载性能在集群环境下能够接近线性地扩展,同时可以与Amazon S3、AmazonDynamoDB、AmazonElastic MapReduce、AmazonKinesis以及任何SSH托管服务进行集成。换句话说,RedShift是一个具备高度可扩展性和高性价比的列式数据库。
一个核心问题就是成本价值。很明显,当利用云计算来交付服务时,在大多数情况下它的成本价值要明显优于传统的软硬件部署模式。RedShift也不例外,想要找到一个高性能高性价比的数据仓库解决方案是非常昂贵的。
企业目前大部分的数据还是存储在自己的数据中心当中,迁移到云端则是大势所趋。然而,对于海量数据来说,无论是以每天的频率还是每周的频率,迁移到云端可能会比想象的更复杂一些。
数据本身也可能制造一些问题,比如不同的地区会对数据存放的位置有严格的法规要求。数据合规的问题也是阻碍云计算成为主流的重要原因之一。因此在进行规划的时候,一定要把它考虑在内。
那么到底要不要选择RedShift?答案是肯定的,至少你应该将云数据仓库作为主要的考量之一。时间与金钱的节省是非常可观的,它使得数据仓库不再是土豪的游戏,云计算将进一步推动数据仓库在中小企业中的普及。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
亚马逊关系型数据库Aurora正式发布
经过了长时间的测试,亚马逊近期正式发布了Aurora关系型数据库服务,目前在三个地区已经开放使用。
-
微软披露最新云数据仓库技术细节:采用MPP架构、支持PB级数据
微软将在Azure云平台上发布一款大规模并行处理(MPP)数据仓库,并命名为Azure SQL Data Warehouse。
-
如何利用Amazon 身份访问管理获得更好的SQS访问控制
如果没有IAM(身份访问管理),SQS就会自动给队列创建者利用此队列访问所有Amazon SQS行为的权限。
-
你为什么要使用亚马逊云数据库?
Amazon RDS减少或是免除了开发人员的管理职责,这是开发人员使用它来管理数据库的优势之一。