pureXML技术及混合型数据库的出现,超越了关系型数据库固有的局限性,为数据库的应用及开发开辟了新的领域。其意义不仅仅是提供了一种存储XML数据的更有效的方式,可用于使用XML数据的各类领域;同时,由于pureXML所代表的层次型数据组织方式,使得我们有了关系型和层次型两种数据建模的方法,即使是对于传统非XML的关系型数据,在某些情况下将传统关系型的数据转化为层次型存储也将带来巨大的业务价值。
从对现有XML数据管理的应用看,pureXML技术的价值是非常明显的。如在书籍出版领域,W3C已经制定了各类数据的规范,今天很多这个领域的数据就是以XML的形式存在。但是如何提供有效的存储方式,以及准确高效的数据查询方式却始终是对关系型数据库的一个挑战。
以图书为例,任何书籍的信息有部分结构化的成分,但是书籍内容的差异性太大,很难用一种统一的结构化的体系进行描述。另一方面,基于各类书籍文章的结构,提供精确的信息查询和搜索具有重要的应用价值。传统关系型数据库很难对书籍XML数据建模,更难以提供准确的查询和搜索。往往只能用全文检索的模式提供一些简单的功能。而采用pureXML技术,任何书籍的XML信息可以直接存储在数据库中,无需复杂建模。由于XML的自描述能力,一旦数据以XML对象存储,就可以提供精确的查询和搜索。举个简单例子,对于一本300页的书,全文检索只能返回其中是否有你查询的内容,无法准确定位在哪一章、哪一节、哪一页,其实用性很弱。而通过pureXML的Xquery进行查询,可以准确定位到最细的粒度,而且可对指定范围进行搜索。
在广泛使用XML的信息交换领域,pureXML能够很大程度上降低数据模型设计的复杂性。无需将XML每个数据项的信息都映射到关系型表的字段上,减少了很多不必要的加工处理过程。另外,XML所具有的扩展性和灵活性的优势可得到充分的发挥。数据层的存储模式不再与数据交换本身的内容是紧密耦合的关系。基于pureXML可设计相对通用的数据交换的存储模式,而且可以方便地适应数据标准的调整和变化。这一点在很多监管类报表信息收集(如XBRL)上有重要的应用价值。
即使对于不涉及任何XML数据的应用,pureXML所代表的层次型数据结构和面向对象的设计方式,也可对关系型数据库的设计方式提供重要的补充。比如对于复杂对象的结构的建模,层次型的模型比关系型有明显的优势。以电子病历为例,下面为关系型建模的样例:
如果采用层次型的数据存储方式,则相对简单、直接。
在关系型的模型中对象与对象之间的嵌套关系比较难于描述,不对数据内在的顺序关系进行维护,只能通过增加附加的属性通过数据值进行管理。实体之间的差异性需要通过不同的表,这样对于同类信息,也可能要建立很多不同的表。
在同一个表中,如果每条记录的属性差异性很大,则需要通枚举的方式将各种可能出现的属性都建成表上的字段。如果采用pureXML技术则可大大方便对这类信息的管理。
以上仅是pureXML应用的简单示例,随着XML的标准在各个行业更为广泛深入地应用,以及Web 2.0等新兴技术领域的发展,我们相信这类技术将越来越多地应用到各类系统中。
数据库的历史经历40年的历程,每一种技术都是随挑战应运而生。层次型数据库和关系型数据库在此过程中都曾为其发展起到重要的作用,而技术的发展在一次次潮流的循环往复中得到升华。为适应今天及未来的业务挑战,由层次模型与传统的关系型模型结合的混合数据库技术,为数据库的发展开辟了新的方向。IBM所推出的DB2 pureXML技术仅仅是新的变革的开始,正如关系型数据库曾经为IT产业的发展做出了举足轻重的贡献,我们有理由对pureXML所代表的新一代混合数据库技术充满期待!
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
数据库产品巡礼:IBM DB2概览
IBM DB2关系型数据库管理系统提供了支持多平台系统的关键技术,它具备较高的可用性和良好的性能。
-
IBM加入Spark社区 计划培养百万数据科学家
IBM近日宣布,将大力推进Apache Spark项目,并计划培养超过100万名Spark数据科学家和数据工程师。
-
IBM成立物联网部门旨在整合未用数据
IBM准备在未来四年投资30亿美元成立一个专门的物联网(IoT)部门,并由此建立一个基于云的开放平台来帮助客户进行更好的数据整合。
-
ODP项目能否成为Hadoop助推器?
开放数据平台联盟的成立旨在为了推动Hadoop的标准化,但项目能否最终成功,或能否项向着承诺的方向发展,还有很多不确定因素。