解读微软大数据组件SQL Server for Hadoop连接器

日期: 2011-09-27 作者:Jason Sparapani翻译:沈宏 来源:TechTarget中国 英文

最近“大数据”在我们网站的话题中占据了很重的份量。就在上个月,微软公司发布了两个基于开源分布式计算框架Hadoop的用于大数据处理的社区技术预览版连接器组件,一个用于SQL Server,另一个用于SQL Server并行数据仓库(PDW)。   在本月的SQL Server访谈栏目中,微软数据库平台专家Mark Kromer向我们介绍了微软公司的大数据策略。Kromer还提及了微软对访问关系型数据的开放数据库互连标准OBDC的支持,其变化会给开发者带来什么好处和挑战,以及是如何推动该公司进入云世界的。

  微软希望向客户提供的SQL Server for Hadoop连接器组件具备什么样的大……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

最近“大数据”在我们网站的话题中占据了很重的份量。就在上个月,微软公司发布了两个基于开源分布式计算框架Hadoop的用于大数据处理的社区技术预览版连接器组件,一个用于SQL Server,另一个用于SQL Server并行数据仓库(PDW)。

  在本月的SQL Server访谈栏目中,微软数据库平台专家Mark Kromer向我们介绍了微软公司的大数据策略。Kromer还提及了微软对访问关系型数据的开放数据库互连标准OBDC的支持,其变化会给开发者带来什么好处和挑战,以及是如何推动该公司进入云世界的。

  微软希望向客户提供的SQL Server for Hadoop连接器组件具备什么样的大数据处理能力?

  Mark Kromer:其中一个使用场景:我非常熟悉这些适配器,它们适用于使用Hadoop进行大数据处理的需求,或者数据存储在一个向外扩展的文件系统中。企业可以使用SQL Server PDW和SQL Server BI提供大数据的分析处理能力,以充分利用SQL Server的投资。这些连接器都是双向的,允许你在SQL Server和HDFS(Hadoop分布式文件系统)之间相互传输数据,便于你迁移大量的SQL Server数据,也就是说,从一个大型的分布式PDW数据仓库把数据迁移到Hadoop,同样可以使用SQL Server BI功能在SQL Server中分析Hadoop的数据。

  作为拥有海量数据的微软客户,需要面对什么样的数据处理挑战?

  Kromer:企业有大数据的需求,比如搜索引擎或者大型社交网站都需要非常非常快地处理超大数据集。在这种情况下,它使用像Hadoop和MapReduce之类的分布式NoSQL工具可能是有好处的,在这些工具中数据库模式被最小化成经典的SQL​​构造,如ACID(原子性、一致性、隔离性、持久性)和参照完整性,保留加快和方便数据访问的特性。微软支持他的客户们使用这些连接器来解决大数据需求。围绕分布式处理和大数据,微软研究院和Windows Azure设立了一些非常令人兴奋的项目。由微软出版的微软观察家Andrew Brust撰写的白皮书中,谈到如何在Windows Azure中使用现有的功能,例如Azure Table Storage、以键值对形式使用Lite模式存储结构化数据进行便捷快速地访问。

  微软把Hadoop连接器的发布称作大数据之旅的“第一步”。那么下一步呢?

  Kromer:尽管有了这些“试用”的连接器组件,发表路线图的评论还为时过早。一旦我们从SQL Server社区看到更多的反馈和对Hadoop和SQL Server的测试结果,那么我们就可以对企业有什么样的需求有一个更清晰的了解。这种反馈将有助于确定下一步应该做成什么样子。虽然Hadoop和MapReduce是目前非常流行的满足企业对大数据的要求,微软继续加大对大数据和分布式编程的投资。 SQL Server PDW是微软第一个完全意义上的分布式数据库,用于内部部署的数据仓库。SQL Azure很快就会推出SQL Federations,这一特性允许分发联机事务处理OLTP数据库的工作负载,也可以使用此功能来分发非结构化大数据和相关的数据库模式。沿着相同的路线,在分布式计算方面,Windows HPC(高性能计算)小组刚刚发布用于处理大数据集的LINQ to HPC,在HPC群集节点间分发LINQ操作。

作者

Jason Sparapani
Jason Sparapani

TechTarget CIO特约编辑。他的研究领域包括云计算、移动云计算,为CIO策略提供了支持。

翻译

沈宏
沈宏

相关推荐