为什么Apache Iceberg对现代数据湖屋至关重要

日期: 2025-07-01 作者:Stephen Catanzano翻译:邹铮 来源:TechTarget中国 英文

Apache Iceberg已经迅速从有前景的数据表格式转变为现代数据湖屋架构的核心支柱。

领先的科技公司(包括谷歌、AWSSnowflake、苹果、NetflixDatabricksQlikCloudera)都广泛采用Iceberg,这表明Iceberg不仅仅是一时的流行;这反映混合云环境向开放、供应商中立架构的转变。

行业部署率激增

Apache Iceberg最初由Netflix2018年开发和开源,近年来获得巨大的发展动力。以下是一些例子:

  • 谷歌BigLakeBigQuery增加对Iceberg的支持,拥抱开放格式。
  • 现在AWS在其AthenaRedshiftGlue支持Iceberg,使其成为其分析服务的支柱。
  • Snowflake2023年推出Unified Iceberg Tables,并在2025年进行全面集成,包括人工智能就绪支持和复制功能。
  • 苹果公司在数百个数据团队中部署了Iceberg,并贡献了写时复制和阅读时合并等功能。
  • Databricks在收购了由Iceberg创建者创立的公司Tabular后,现在支持Iceberg和其他开放格式,作为其Unity CatalogLakebase的一部分。
  • Cloudera是早期部署者,他们将Iceberg整合到其真正的混合数据、人工智能和分析平台中。
  • Qlik最近在Qlik Talend Cloud内推出了其开放式湖屋,该云建在Apache Iceberg之上。
  • DremioApache Iceberg完全纳入其数据湖屋战略的一部分,定位为统一湖屋平台。
  • 甲骨文在其Autonomous DatabaseHeatwave 平台中采用了Apache Iceberg支持。

2025年春季,Iceberg v3表格式规范获得批准,这巩固了互操作性和供应商中立性,进一步推动上述的部署浪潮。

为什么Apache Iceberg现在很重要

Iceberg对现代数据架构至关重要的原因包括以下:

真正的数据湖屋功能

Iceberg将传统上仅限于数据仓库的功能带入数据湖环境,例如ACID事务、架构和分区演变、时间旅行和对并发读/写支持。与其他选项不同,Iceberg将元数据与文件存储分开,从而在云对象存储上实现更高的性能。

开放式、与供应商无关的格式

与专有格式不同,Iceberg是真正开放的格式。它支持跨引擎,包括SparkFlinkTrino/PrestoHiveAthena。这种开放式设计消除供应商锁定,为企业提供灵活性。

通过社区快速创新

Iceberg有专门的开源社区,由NetflixAppleAWSSnowflakeDremioTabular做出重大贡献,加速功能开发。V3规范是协调的跨行业努力的产物。

AI和分析

生成式AI和分析基础设施的蓬勃发展推动了数据开放性。借助Iceberg,企业可以将PB规模的数据输入到AI管道中,时间旅行允许回滚和可重复性,这对审计至关重要。

混合和多云灵活性

Iceberg将存储和计算分开,它允许企业将敏感数据保留在本地,同时跨云分发计算,以采用混合湖屋架构。Iceberg解决了这些环境中的元数据和一致性问题。

总结

Apache Iceberg不仅仅是炒作。它是统一、开放和灵活的数据架构的重要组成部分。凭借其全面的功能集、供应商中立的设计、蓬勃发展的开源生态系统和面向AI发展,它的重要性毋庸置疑,这也使得这么多领先的技术供应商都开始部署它。我们将会看到下一代数据湖屋,最终将灵活性与仓库级可靠性相结合。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

邹铮
邹铮

相关推荐