Databricks开放数据湖用于数据共享

日期: 2021-05-30 作者:Sean Michael Kerner翻译:邹铮 来源:TechTarget中国 英文

Databricks公司于5月26日推出Delta Sharing开源协议,旨在开放数据湖以实现更多共享。

在5月26日举行的虚拟Data + AI峰会上,这家机器学习和数据湖供应商还为其Delta Lake 数据湖项目发布一系列其他新功能,包括用于数据协作和流数据的工具。

Databricks公司度过了忙碌的一年,在2月1日的 G 轮融资中筹集了10亿美元。

近年来,Databricks一直在构建的关键技术之一是开源Delta Lake项目,这项数据湖技术现在由Linux基金会运行。Databricks提供商业支持平台以部署Delta Lake。

现在,Databricks正在通过新的开源数据协作Delta Sharing来扩展Delta Lake。此外,Databricks还为Delta Lake引入了新的数据治理功能-在Unity Catalog中,以及支持流数据的实时表功能。

Ventana Research公司分析师Dave Menninger表示,Delta Sharing是有用的概念。

Menninger说:“随着数据从数据中心迁移出来,并存储在各种基于云的数据源中,共享数据的开放协议很有意义。Delta Sharing的真正价值将取决于有多少供应商同意支持它。”

Menninger补充说,Databricks最初似乎在第三方承诺方面做得很好,可以创造动力以吸引更多支持。

在5月26日虚拟会议的主题演讲中,Databricks首席执行官Ali Ghodsi表示,支持Delta 共享协议的组织之一是AWS Data Exchange。Ghodsi还指出,微软、谷歌、Tableau 和 Starburst 都表示,他们将集成Delta Sharing支持到他们的产品中。

Delta Sharing如何支持数据湖协作

Databricks公司联合创始人兼首席技术官Matei Zaharia在会议的主题演讲中说,Delta Sharing的主要目标是,对于企业在其数据湖中数据,使数据共享变得流畅,而无需复制数据到另一个系统。

Zaharia 表示:“我们希望用户可更容易地利用数据。”

Delta Sharing模型涉及两方:数据提供者和数据接收者。Zaharia解释说,数据提供者可以从它已有的Delta Lake格式的现有表开始。Delta Sharing 还支持广泛用于数据湖的Apache Parquet格式。

Zaharia 称:“如果你没有使用 Delta Lake,而只是使用Apache Parquet,那么你可以很容易地创建一个指向你现有Parquet数据的Delta表。”

在数据提供者面前,需要部署Delta Sharing服务器。Delta Sharing服务器提供接口和协议,可实现与数据接收者的实际共享。

Zaharia指出,Delta Sharing允许接收者仅索要表数据的一部分。例如,如果用户只关心一个产品线的销售额,他们只能访问该数据子集。

将数据发送给接收方的过程使用云对象存储来快速传输数据。Delta Sharing服务器将在Amazon S3上生成短期地址,允许客户端请求他们实际允许获取的特定文件。

Zaharia 称:“我们真的认为数据共享的未来是开放的,我们认为 Delta Sharing 将成为其中的关键部分。”

Delta Sharing现在已经推出。

Unity Catalog将数据治理带入数据湖

Unity Catalog是一项数据治理功能,现已面向Databricks云用户提供预览版。

通过Unity Catalog,Databricks将一个统一的对象模型置于企业在数据湖中所有数据前。该目录配置有标准SQL来定义访问策略。

Zaharia说:“这是大规模管理安全权限的一种非常强大的方式。”

 

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

邹铮
邹铮

相关推荐

  • Java、JDBC和Postgres

    现在越来越多的企业开始部署PostgreSQL,为什么呢?当你看到这个许可开源数据库所提供的功能,你就不会对此 […]

  • 5个元数据管理最佳实践

    在数据驱动的环境中,元数据不仅仅是数据的副产品;还是综合数据治理战略的关键组成部分。企业需要适当的元数据管理, […]

  • Cockroach Labs增加矢量搜索,更新定价选项

    Cockroach Labs 近日推出矢量搜索功能,旨在使客户能够访问和操作非结构化数据,以训练生成式人工智能 […]

  • 如何使用数据治理成熟度模型

    如果没有强大的数据治理,数据就无法产生有价值的见解以及改善决策。数据治理成熟度模型可帮助企业评估当前的成就水平 […]