MongoDB 3.2 预计在2015年底在 MongoDB World 里向大家介绍,我们认为这有益于带来一些很有吸引力的特征。大多数的这些功能仍然在发展,尽管它们被展示出来,有可能真正等到 MongoDB 3.2 公布时,这些特征也许将会发生改变。
模式?
会议上有很多关于模式的讨论。一个“无模式”的数据库,如 MongoDB 的一个提升,这看起来很奇怪,但它似乎 MongoDB,公司已重新发现规则的结构存储在数据库中的文档可以帮助管理一个数据库的演变。
这实际上涉及到的是一个新的,MongoDB 的企业工具支付,扫描集合和逆向工程师从集合模式中的搜索。它也提供了关于在 MongoDB3.2 使用的新热性,来使收集更有用、更正常,这些特性就是……
校验
MongoDB 开源版本的诸多新特性之一是可以给文档的字段加校验。 这个特点, SERVER-18227, 使得集合可以拥有一个校验器来作为集合元数据的一部分。校验器是一个匹配表达式,会在文档插入或修改时验证匹配结果为 true。 如果校验不通过,修改将会被拒绝并返回一个错误 121, DocumentValidationFailure.
但是也有些限制。首先,校验器必须是非常简单的匹配表达式;大于、 小于或是否存在等。不可以用地理位置的附近,不可以用文本查找也不能用where表达式。
你可以在创建表(译者注:我想应该是集合)的时候设置校验器,只需要加一个 validator 的设置项,或者也可通过 collmod 命令,如下:
这个例子校验了字段”a”是否存在。如果你想修改校验器,但是注意到并没有获取元数据函数,因此需要获取集合的统计信息(stats),这个里面有现有的校验器。然后就能用”collMod”来修改跟重新设置了。
关于校验器,还有些需要记住的。首先,他们只在添加跟修改操作时生效,言下之意是对于集合中的现存数据,校验器是不校验的…直到你更新一个已经存在的文档,校验器就会起作用了,除非文档没做更改。因此如果你想启动校验,你可能需要先把现有集合扫描一遍,确认所有文档符合或者对所有添加/修改操作添加失败快照。你可以把 BypassDocumentValidation 权限给你的用户,让他们设置bypassDocumentationValidation 标志,但是这可能与校验的初衷有所冲突。顺带一提,这些权限跟标识主要是为一些运维操作设计的,比如恢复一个 partially conforming collection 。
局部索引
与模式相关的另一个服务器端的功能就是”局部索引“,这个功能自2010开始就在 MongoDB 的 JIRA 里时不时的被提到。对这一功能最好的解释就是通过实例来说明。假设你手头有你曾经接触过的所有客户,包括活跃的和非活跃的。在日常的使用中,你想在查询活跃客户时获得很好的性能。要达到很好性能的一种方式是分为两个数据集(即表)来处理,一个数据集是活跃客户,它具有索引,另一数据集是非活跃客户,没有索引,不过,这就要求对应用进行更改,确保客户存储在它应该存储的那一数据集里。另外,你可以使用局部索引,局部索引只对哪些满足过滤器表达式的文档进行索引。如下:
此时,对非常大型的表的处理性能会得到巨大的提升。这种情况下,如果文档与过滤器不匹配,那么,不但在查询时跳过了这些文档,而且在插入或者更新时也不会对这些文档添加索引。不过性能提升的程度则完全取决于需要进行索引处理字段的结构和密度。
Lookup!
有个不争的事实是 MongoDB 不具备任何形式的表连接。其实大部分情况,你不需要表连接,但是当你需要将数据组合并分析,这个时候你可能想要个连接功能。MongoDB 公司关于这点的意见是,稍稍将你的数据非正规化一下,将不同集合的数据复制到那个你准备分析的集合中,并保持同步,起码每天同步一次,但是谈到分析,你总不能啥数据都到处复制。
MongoDB 的核心分析工具是 aggregation,通过这个,你能创建一个任务管道(pipeline),对选中的文档施加各种操作,最后得到需要的数据。当你要聚合订单表时,首先在 pipeline 中添加个运算符,来匹配特定的几类产品的订单,然后用另一个运算符分组计算每类产品的销量。问题是 pipeline 只能对一个集合中的文档进行操作,因此,如果还需要操作另一个集合的时候,就玩不转了。MongoDB 3.2添加了一个 $lookup 操作符 用以引入其它集合的数据。
$lookup 操作符有一个 from 参数,用来指定你想从哪个集合拖数据。还有一个 on 参数用来指定另一个集合中的哪个字段跟 pipeline 中的哪个字段应该匹配。最后当匹配到一个文档,该文档会被插入管道中的文档,通过 as 参数设定一个 key 把该文档就放到这个 key 中。这个方式看上去有点暴力, 使文档变得很大, 别担心,其它的聚合操作符会把数据切小的。
$lookup 在聚合管道中有巨大的潜力,可以使用户不需要刻意将数据非正规化。不过我们要等到 alpha/beta 发布才能知道 $lookup 在实践中到底有多有效。
总结
这是第一次评判数据库级别的操作,我们应该把期待放在 MongoDB 3.2 上。所有三个特性在这里的痛点是 MongoDB 的架构内的服务器。在 MongoDB 3.2 alpha /beta 版本释放时,我们将能够在服务器端的用户端获得更多改进。其他大部分 MongoDB 3.2 变化与存储引擎,认证,集成和复制。我们将在未来覆盖。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
NoSQL性能管理仍不完备 你该如何应对?
NoSQL技术现在仍然处于相对初级的阶段,众多NoSQL软件类型和产品服务令人眼花缭乱,选择合适的性能管理方案也成为一件颇具挑战性的事。
-
NoSQL——未来数据库家族的一员
NoSQL是对数据库由内而外的全方位改造,从而创造出一个高容量、高速度和高可变性的架构。然而,NoSQL供应商在可变性部分却正在遭遇失败。
-
GPU技术仅局限于游戏领域?当心大数据应用的小船说翻就翻
GPU技术的使用是一些机器学习应用的前沿和核心。Facebook,百度、亚马逊和其他一些公司正在使用的GPU集群来研究深层神经网络相关的机器学习应用程序。
-
【NoSQL数据库四大类型解析】如何选择列族数据库和图形数据库?
NoSQL数据库有多少类型?如何选择合适的NoSQL数据库?我们将介绍选择列族数据库和图型数据库必须考虑的因素。