Trino将提高开源SQL查询性能

日期: 2021-11-03 作者:Sean Michael Kerner翻译:邹铮 来源:TechTarget中国 英文

开源Trino分布式SQL查询引擎在2021年迎来丰收的一年,并且,正在为来年的更多创新做准备。

在最近的Trino Summit虚拟活动中,Trino的支持者和用户详细介绍了开源分布式SQL查询引擎的用例。该活动由商业Trino供应商Starburst赞助,Starburst是Trino开源项目的主要贡献者之一。

在2020年底前,Trino曾被称为PrestoSQL,这是因为它与Linux基金会支持的称为PrestoDB(现在简称为Presto)的关联。

在Trino峰会上,LinkedIn、Electronic Arts、Robinhood和DoorDash等多个用户介绍了他们的企业如何大规模使用Trino来实现分布式数据查询。

在10月22日的用户会议上,投资应用程序供应商Robinhood的高级软件工程师Grace Lu说:“我们使用Trino来构建我们的核心数据查询平台,使我们能够做出数据驱动的分析和决策。”

Trino如何通过分布式SQL引擎帮助Robinhood

Robinhood将Trino用于他们自己的面向内部的应用程序。这些应用程序包括数据分析和商业智能,以及有助于解决可用性和性能问题的整体平台可见性。

Robinhood拥有多个Trino集群,这些集群连接到不同的数据源,并使该公司的用户能够对这些数据源运行查询。

在这些数据源中有多个PostgreSQL数据库,Robinhood将其用作其主要事务数据源。 Robinhood还使用Alation数据目录和Looker分析平台,它们都通过Trino连接到Robinhood的数据源,使用户能够查询数据。

DoorDash正在使用Trino进行分布式SQL查询

疫情引发DoorDash等送餐服务业务的热潮。在10月21日的用户会议中,这家旧金山公司的工程经理Akshat Nair详细介绍了该公司如何使用Trino来启用分布式数据查询。

DoorDash拥有复杂的数据架构,他们使用PostgreSQL、Apache Cassandra和CockroachDB作为核心数据源。对于实时事件流,DoorDash使用Kafka。有些数据位于Snowflake云数据仓库中,而其他数据则流向基于Amazon S3的数据湖。

Nair说,DoorDash现在正处于Trino的早期采用阶段,并正在使用它来启用跨其数据架构的查询。DoorDash的初始用例类似于Robinhood,使内部用户能够对业务流程和运营运行数据分析。

Nair称:“我们此时正处于采用阶段,因此查询量并不大,但对于其中一些表,正在处理的数据达到TB和PB级。”

Trino的未来发展

在10月21日的主题演讲中,Presto和Trino的联合创始人兼Starburst的首席技术官Martin Traverso深入介绍了Trino今年取得的技术进步以及该供应商的发展方向。

Traverso解释说,PrestoSQL去年12月更名为Trino,PrestoSQL和PrestoDB在2019年开始真正拆分。他指出,虽然这两个项目有着共同的历史,但40%以上的变化发生在2019年之后,所有这些变化都是Trino独有。

Traverso说,在接下来的几个月里,Trino将提供很多新功能。其中一项功能被Traverso称为粒度容错。

Trino现在的一大限制是,如果查询超过集群中可用的内存量,则查询将失败。借助粒度容错能力,查询引擎将能够重试查询以帮助其成功,而不是完全失败。

Trino在其基础上使用Java编程语言。Traverso指出,Trino目前基于Java 11,它已经有几年的历史。在接下来的几个月里,Trino将迁移到更新的Java 17作为基础。

Traverso 称:“我们实际上已经开始使用Java 17进行一些基准测试,我们看到性能提高20%。因此,能够迁移到Java 17作为构建Trino的平台非常重要。”

 

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

邹铮
邹铮

相关推荐

  • Java、JDBC和Postgres

    现在越来越多的企业开始部署PostgreSQL,为什么呢?当你看到这个许可开源数据库所提供的功能,你就不会对此 […]

  • 5个元数据管理最佳实践

    在数据驱动的环境中,元数据不仅仅是数据的副产品;还是综合数据治理战略的关键组成部分。企业需要适当的元数据管理, […]

  • Cockroach Labs增加矢量搜索,更新定价选项

    Cockroach Labs 近日推出矢量搜索功能,旨在使客户能够访问和操作非结构化数据,以训练生成式人工智能 […]

  • 如何使用数据治理成熟度模型

    如果没有强大的数据治理,数据就无法产生有价值的见解以及改善决策。数据治理成熟度模型可帮助企业评估当前的成就水平 […]