开源Trino分布式SQL查询引擎在2021年迎来丰收的一年,并且,正在为来年的更多创新做准备。
在最近的Trino Summit虚拟活动中,Trino的支持者和用户详细介绍了开源分布式SQL查询引擎的用例。该活动由商业Trino供应商Starburst赞助,Starburst是Trino开源项目的主要贡献者之一。
在2020年底前,Trino曾被称为PrestoSQL,这是因为它与Linux基金会支持的称为PrestoDB(现在简称为Presto)的关联。
在Trino峰会上,LinkedIn、Electronic Arts、Robinhood和DoorDash等多个用户介绍了他们的企业如何大规模使用Trino来实现分布式数据查询。
在10月22日的用户会议上,投资应用程序供应商Robinhood的高级软件工程师Grace Lu说:“我们使用Trino来构建我们的核心数据查询平台,使我们能够做出数据驱动的分析和决策。”
Trino如何通过分布式SQL引擎帮助Robinhood
Robinhood将Trino用于他们自己的面向内部的应用程序。这些应用程序包括数据分析和商业智能,以及有助于解决可用性和性能问题的整体平台可见性。
Robinhood拥有多个Trino集群,这些集群连接到不同的数据源,并使该公司的用户能够对这些数据源运行查询。
在这些数据源中有多个PostgreSQL数据库,Robinhood将其用作其主要事务数据源。 Robinhood还使用Alation数据目录和Looker分析平台,它们都通过Trino连接到Robinhood的数据源,使用户能够查询数据。
DoorDash正在使用Trino进行分布式SQL查询
疫情引发DoorDash等送餐服务业务的热潮。在10月21日的用户会议中,这家旧金山公司的工程经理Akshat Nair详细介绍了该公司如何使用Trino来启用分布式数据查询。
DoorDash拥有复杂的数据架构,他们使用PostgreSQL、Apache Cassandra和CockroachDB作为核心数据源。对于实时事件流,DoorDash使用Kafka。有些数据位于Snowflake云数据仓库中,而其他数据则流向基于Amazon S3的数据湖。
Nair说,DoorDash现在正处于Trino的早期采用阶段,并正在使用它来启用跨其数据架构的查询。DoorDash的初始用例类似于Robinhood,使内部用户能够对业务流程和运营运行数据分析。
Nair称:“我们此时正处于采用阶段,因此查询量并不大,但对于其中一些表,正在处理的数据达到TB和PB级。”
Trino的未来发展
在10月21日的主题演讲中,Presto和Trino的联合创始人兼Starburst的首席技术官Martin Traverso深入介绍了Trino今年取得的技术进步以及该供应商的发展方向。
Traverso解释说,PrestoSQL去年12月更名为Trino,PrestoSQL和PrestoDB在2019年开始真正拆分。他指出,虽然这两个项目有着共同的历史,但40%以上的变化发生在2019年之后,所有这些变化都是Trino独有。
Traverso说,在接下来的几个月里,Trino将提供很多新功能。其中一项功能被Traverso称为粒度容错。
Trino现在的一大限制是,如果查询超过集群中可用的内存量,则查询将失败。借助粒度容错能力,查询引擎将能够重试查询以帮助其成功,而不是完全失败。
Trino在其基础上使用Java编程语言。Traverso指出,Trino目前基于Java 11,它已经有几年的历史。在接下来的几个月里,Trino将迁移到更新的Java 17作为基础。
Traverso 称:“我们实际上已经开始使用Java 17进行一些基准测试,我们看到性能提高20%。因此,能够迁移到Java 17作为构建Trino的平台非常重要。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Java、JDBC和Postgres
现在越来越多的企业开始部署PostgreSQL,为什么呢?当你看到这个许可开源数据库所提供的功能,你就不会对此 […]
-
5个元数据管理最佳实践
在数据驱动的环境中,元数据不仅仅是数据的副产品;还是综合数据治理战略的关键组成部分。企业需要适当的元数据管理, […]
-
Cockroach Labs增加矢量搜索,更新定价选项
Cockroach Labs 近日推出矢量搜索功能,旨在使客户能够访问和操作非结构化数据,以训练生成式人工智能 […]
-
如何使用数据治理成熟度模型
如果没有强大的数据治理,数据就无法产生有价值的见解以及改善决策。数据治理成熟度模型可帮助企业评估当前的成就水平 […]