神秘项目:打通SQL与NoSQL界限

日期: 2013-03-18 作者:Roger du Mars翻译:曾少宁 来源:TechTarget中国

去年10月,当David DeWitt在PASS峰会进行演讲的时候,他的中心思想是:海量数据中的非结构数据已经占据多数,其中大部分存储在NoSQL数据库中,但是传统的SQL并未失势。作为一名经验丰富的SQL Server专家和微软技术追随者,DeWitt认为未来存在推出SQL与NoSQL共存数据管理系统的可能。

神秘项目:打通SQL与NoSQL界限

  虽然这并不是一场你死我活的搏斗,但是在谈到非结构化数据管理方面,SQL仍然会受到排挤。Ventana Research 的分析师David Menninger说:“在最近几年,人们感觉到他们必须将数据存储从SQL转到其他方式,以提高效率。然而,整合这两种类型才是最佳策略。”

  NoSQL是指“not only SQL”,它源自谷歌的开源技术,其目的是解决数据抓取需求(如点击流),并且具有非常高的可伸缩性。而这其中有越来越多的非结构化数据出现。SQL并非不能存储非结构化数据,但是NoSQL的灵活性使之非常适合存储非结构化数据。

  严格地说,DeWitt并没有在大会演讲中发布任何产品。而且,他认为近期数据管理系统的发展不会像关系数据库的网络与层次模型一样出现重大转变。

  但是DeWitt指出,高速存储大量非结构化数据及精确分析会暴露NoSQL与Apache Hadoop的内在低效问题。使用Hadoop Sqoop导入工具将数据从关系数据库迁移到NoSQL数据库需要执行大量的扫描操作,并且最终对性能产生影响。微软去年正式发布了SQL Server 2008 R2的Hadoop连接器,并且在SQL Server 2012中实现了完美的整合。

  DeWitt说:“一定有一种更好的方法,其效率及性能要比桥接方式高。”他的项目(名为“企业数据管理器”)基于SQL Server并行数据库技术,它能够大大提升可伸缩性、容错性和大规模非结构化数据的分析能力。他说:“我们将尝试开发一个产品,请大家拭目以待。”

  在本文发布时,微软管理层已经在关注DeWitt,他需要在学术研究与本职工作上进行平衡。“企业数据管理器”的细节并没有公布,但是它是由威斯康辛大学附近的微软实验室主持,其中DeWitt是一名退休教授。微软对此的官方说法是:“通过整合微软商业智能工具和主数据管理与流数据的辅助工具,SQL Server并行数据仓库为用户实现TB级高可伸缩性、可伸缩性能和全面的数据仓库平台。”

  开源领域正成为越来越积极的创新源地。谷歌、Facebook和亚马逊都非常依赖于开源技术,而Oracle、微软和IBM则被迫参与其中。所以,下一代数据库管理系统将会继续在私有环境范围之外得到发展。

  Michael Stonebraker是另一个SQL领域专家,他也非常推崇开源技术。两年前,他与人共同创建了VoltDB,这家位于马萨诸塞州的技术公司主要致力于开发高度可扩展、OLTP最优化的开源SQL数据库。他说:“低成本高性能是未来发展的方向,开源总会征服一切。”

  如果说Stonebraker的预测是极端的,那么他似乎是在与大潮流背道而驰。Stonebraker指出,Hadoop生态系统最近几年的繁荣使开源模型(和NoSQL)成为处理非结构化数据的主力军。SQL的基石是模式(Schema)。由于具有数据提取、转换和加载功能及所谓ACID数据库特性,SQL模型可以实现可靠的一致性。非结构化数据的超大规模(其中大部分无确定形态且价值不大)使NoSQL领域得到不断扩大和发展。但是,当前的“大数据”领域仍然是静态的。在PASS大会上,DeWitt指出这段时期属于“数据库人员的黄金时期。”因为大数据带来了更多的机会。

  微软数据库平台专家Mark Kromer指出,这些机遇源于Hadoop生态系统的不足之处。“许多致力于改进Hadoop组件的项目正在启动,所以现在还很难说清未来会发生什么。”

  由于资源有限且处理超大规模数据的挑战巨大,所以Hadoop先行者取得了巨大的成功。但是,显然提高性能仍然是最紧迫的要务。

  改变现有系统是最常见的创新方式。Splunk等公司已经开发了面向非结构数据的速度与高级分析需求的解决方案。这个软件实际上是MapReduce(Hadoop的软件计算框架)的私有升级版本。

  Digital Reasoning 推出的Synthesys也在海量非结构化数据处理速度上(包括实时高级分析、效率和灵活性)遇到瓶颈。Synthesys能够发现非结构化数据的深层次实体,即人、地点、事物和事件,以及这些实体之间的关系。Menninger指出,类似的创新表明了非结构化数据的处理速度得到提升。他说:“从高级分析受益的市场更广阔,分析结构的速度与精确度就越高。”

  由于非结构化数据变得越来越具体、,可管理性和价值也越来越高,SQL与NoSQL的范畴将一定会超越它们的常规领域。正如DeWitt乐于见到的,Hadoop生态系统整合了大量的SQL组件。Facebook开发的基于Hadoop的数据仓库Hive与雅虎开发的基于Hadoop的语言Pig都是半陈述性技术,并且都有“类SQL”的特点。DeWitt指出,这里并没有区别;在Facebook的15万个日常任务中,只有500个运行在MapReduce上,大部分任务运行在Hive上,另外一部分运行在SQL上。

  SQL与NoSQL之间的分歧可能类似于自由主义者与保守语义者的对立。习惯不同,优先级就几乎完全相反。SQL是保守的老人,严谨且可靠。而NoSQL则是年轻人,自由、迅捷且灵活。Athena IT Solutions创始人Rick Sherman指出,两个阵营各自都不太认同对方的方式,这种分歧也许会妨碍下一代数据库技术的创新。甚至以非结构化数据为主的NoSQL技术对DeWitt和他的“企业数据管理器”发展也会造成阻碍。

  DeWitt是否能够巧妙发明一个具有极高可伸缩性和容错性的SQL数据库?他的下一代数据库管理系统是否还能够处理非结构化数据?让我们拭目以待。

       本文首先发布在《数据库工程师》电子杂志,更多精彩内容,请下载《数据库工程师》2013年1月刊完整版PDF。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

曾少宁
曾少宁

TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

相关推荐