近日甲骨文公司推出MySQL HeatWave Lakehouse,这是一项新的基于云的服务,旨在使湖仓查询像数据库查询一样快速和简单。
甲骨文于2022年10月首次预览了MySQL HeatWave Lakehouse,当时已进入 beta 测试阶段。现已正式发布。
虽然MySQL HeatWave Lakehouse是MySQL HeatWave产品组合的新成员,但它并不是甲骨文的第一个数据湖仓。甲骨文还在其自治数据仓库(Oracle数据库的完全托管版本)中提供了湖仓功能,服务于与MySQL HeatWave套件不同的用户群。
IDC公司分析师Carl Olofson说:“甲骨文数据库是高端企业产品,而MySQL是……对于仍然需要良好数据库管理系统支持的各种低预算用户。”
湖仓的优势
数据湖仓最初由Databricks开创,但现在可从Snowflake和Google等各种供应商处获得,基本上结合了数据仓库和数据湖的功能。
数据仓库擅长存储结构化数据,例如财务和交易记录。同时,数据湖使用对象存储,旨在容纳非结构化数据,例如文本和视频文件。但是,由于两者都只专门存储某些数据,因此部署两者的结果可能是孤立的数据,需要大量的手动劳动才能整合以获得更完整的操作视图。
然而,数据湖仓能够容纳结构化和非结构化数据以及半结构化数据,因此用户可以更轻松地组合各种数据类型,并更好地了解其企业内发生的事情。
由于这种灵活性,Ventana Research分析师Matt Aslett表示,他预计数据湖仓在未来两年内将得到更广泛的使用。
他指出,对象存储已成为企业存储数据的一种廉价且常见的方式。但是,如果没有结构,存储在数据湖中的数据就很难用于为决策提供信息。湖仓是解决这个问题的一种方法,使非结构化数据与结构化数据相结合。
Aslett说:“我们看到人们对湖仓方法的兴趣日益浓厚,尤其是已经投资于数据湖环境的企业。我断言,到 2025 年,当前10个数据湖采用者中有8个将投资于数据湖仓架构,以提高其累积数据产生的业务价值。”
Constellation Research分析师Holger Mueller表示,除了使用户能够轻松整合不同的数据类型外,湖仓还自动化大部分工作,这是关键。
他说:“湖仓是大数据的复兴,这个行业正在运行它。最重要的是,通过湖仓,大数据终于以一种简单和自动化的方式工作。这在以前有效,但是当顾问离开企业时,项目往往会停止。”
新功能
甲骨文于2020年首次推出MySQL HeatWave数据库。
MySQL HeatWave是一种内存托管数据库服务,使用开源MySQL平台作为基础,甲骨文在其上添加了自己的功能。虽然甲骨文运行自己的云计算,但除Oracle Cloud Infrastructure之外,MySQL HeatWave服务还可以在AWS和Microsoft Azure上使用。
自三年前推出以来,Oracle通过MySQL Autopilot增强了MySQL HeatWave服务,MySQL Autopilot是一种机器学习驱动的自动化功能,旨在从过去的查询中学习,以改进未来查询的执行。
7月20日,这家科技巨头将其MySQL HeatWave服务扩展到数据库之外,包括数据湖仓。Mueller说,此举意义重大,因为它既汇集了结构化和非结构化数据,又加快了Autopilot的查询速度。
他表示:“从洞察力的角度来看,整合结构化和非结构化数据是一项关键成就和好处。Autopilot的设置使它变得简单快捷。”
与此同时,Aslett指出,数据湖仓部署有两种方法。
一种方法将数据仓库的功能注入到数据湖环境中,以结合两者的功能。
另一种使数据仓库和数据湖在某种程度上分开,使用数据湖进行低成本存储,然后应用预定的模式(有效地为数据提供结构)从关联的数据仓库到以前的非结构化数据。
根据Oracle的说法,MySQL HeatWave Lakehouse使用户能够查询对象存储中的数据,但不创建单一的环境,本质上采用了湖仓架构的第二种方法。
根据Aslett的说法,这种方法的显着好处是节省成本,因为数据不必移动。
他说:“MySQL HeatWave Lakehouse使用户能够从MySQL HeatWave查询低成本对象存储中的数据,而无需将其移动到数据库的成本和复杂性。这种方法的优点是,它相对便宜地促进了对大量数据的分析。”
但有一个缺点,他继续说道。
与查询存储在数据库中的数据相比,查询外部对象存储中的数据时,查询速度可能较慢。然而,甲骨文声称,他们已经通过部署Autopilot消除了这个问题。
Aslett说:“因此,甲骨文声称客户可以像查询数据库中的数据一样快地查询对象存储中的数据,这一点非常重要。”
查询速度很重要,因为云平台不仅向客户收取他们消耗的计算能力,还对他们使用服务所花费的时间量收费。因此,分秒必争。
甲骨文数据库和自治服务产品营销副总裁Steve Zivanic说:“他们在云端花费的时间越多,费用就越高。以这些加速的速度交付,用户将获得更低的账单。这纯粹是经济原因。”
与此同时,甲骨文的MySQL数据库和HeatWave高级副总裁Nipun Agarwal表示,开发MySQL HeatWave Lakehouse的动力来自客户的要求。
他指出,当甲骨文使用户能够将分析处理引入MySQL时,很多人在文件中拥有无法用于分析的非结构化数据。
Agarwal 称:“这是一个痛点,我们认为我们可以扩展HeatWave的能力来解决这个问题。我们需要将对象存储与 MySQL 数据相结合。”
未来计划
正如MySQL HeatWave Lakehouse的开发是源自客户需求,MySQL HeatWave套件的路线图也将基于客户的反馈。
根据Olofson的说法,关注客户需求是一个很好的策略。
他表示:“他们最好的选择是与用户保持密切联系,听听他们说什么,看看竞争对手如何试图吸引他们。”
此外,Zivanic指出,甲骨文计划在未来几个月内将生成式AI作为其整个数据管理和分析产品组合的一部分。
与此同时,Mueller表示,甲骨文是功能更全的云数据库提供商之一,其能力经常超过竞争对手。因此,与同行相比,他们没有明显的弱点 – 因此没有明显的功能可以改进。
他指出:“它们是创新最快的云数据库,几乎没有什么可补充的。如果有数据库创新的奥斯卡奖,Agarwal和团队会在过去几年赢得此奖项。”
Mueller继续说道,除了Zivanic提到的注入生成AI之外,可能存在增长空间的地方是超越数据存储。
他表示:“他们可能会转向…更多的数据操作和应用程序开发,数据库方面没有什么改进空间。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
翻译
相关推荐
-
Oracle Exadata更新提升性能以满足AI需求
甲骨文的Exadata平台的最新版本现已普遍可用,此次更新带来性能提升,主要针对AI、分析和在线事务处理工作负 […]
-
人类监督使自动化数据治理成为可能
并非数据治理的所有方面都应该自动化,但你可以部署AI和机器学习,在仔细的人工监督下自动执行重复和耗时的合规检查 […]
-
MySQL与PostgreSQL:两款主流开源数据库对比
MySQL和PostgreSQL是两款最流行的开源SQL数据库,两者都可以很好地作为通用数据库。在这两者之间, […]
-
Java、JDBC和Postgres
现在越来越多的企业开始部署PostgreSQL,为什么呢?当你看到这个许可开源数据库所提供的功能,你就不会对此 […]