Confluent公司实现云端无限Kafka可扩展性

日期: 2020-07-05 作者:Sean Michael Kerner翻译:邹铮 来源:TechTarget中国 英文

上周三Confluent公司推出新的无限数据保留功能–针对云端Apache Kafka事件流。

这个新功能现已全面推出,这是Confluent公司的Project Metamorphosis的一部分,该项目于5月6日开始,旨在改善Apache Kafka的操作。Kafka是一种流行的事件流技术,可生成很多可存储的单个数据点。

然而,Confluent公司认为,这里的挑战通常在于如何存储数据,Kafka用户通常只能存储数据7天。Confluent Cloud中的无限保留功能使Kafka用户现在可以轻松存储所需的任意数量的数据。

Ventana Research公司高级副总裁兼研究主管Dave Menninger表示,无限保留功能可以帮助解决Apache Kafka的一些主要缺点。首先,Menninger指出,扩展Kafka集群并非易事,因为配置通常需要大量的手动工作。

另一个关键挑战是用户必须同时扩展存储和计算。Confluent推出的新功能解决了这两个问题,使其更易于扩展,并使企业能够分别扩展存储和计算,以更好地满足其特定需求。

Menninger说:“很多企业不可能永远将数据存储在Kafka中,但是他们肯定会扩大在Kafka中保留的历史记录的数量。通过无限保留功能,存储数据的位置和存储多少数据的决定将更多地根据功能需求,而不是受限于当今的架构限制。”

Kafka可扩展性挑战

Confluent Cloud产品经理Dan Rosanova说,Kafka用户可以在很长时间之前存储数据,但是这通常需要多个步骤,包括用于实时数据和长期存储的某种形式的适配器。

一种特定的用例是训练机器学习AI模型,该模型可用于欺诈检测。以前,此类应用程序的用户必须实时处理事件流数据,还必须在历史数据集上训练AI模型。

Rosanova说:“对于很多客户来说,他们的困难点在于必须编写适配器来访问历史数据,因为他们只想将其模型指向数据历史记录中的任意点,然后从那里重播。”

无限Kafka可扩展性不同于数据湖

对于用户如何自己存储Kafka事件流数据,一种潜在方式是通过某种形式的数据湖。然而,挑战在于,数据不一定必须存储在数据湖内部的结构化架构中。他指出,可用工具可以在数据湖内创建结构,但是该过程往往需要其他步骤。

通过Confluent无限方法,Kafka事件流数据将按照其原始时间顺序进行存储和保留,从而使用户更容易在需要时以与创建时相同的格式简单地重放和访问数据。

更进一步,Confluent的ksqlDB事件流数据库是在无限Kafka数据功能之上启用数据分析的关键部分。Confluent于2019年11月预览了ksqlDB,并于4月6日将其与Confluent Cloud服务集成。

Rosanova解释说,ksqlDB可以对数据的物化视图(它是数据集的快照)启用交互式查询。他说,通过无限数据保留和ksqlDB的组合,数据集的实例化视图可以返回到用户想要的范围。

Apache Kafka 2.6即将发布

下一个重要的里程碑是Apache Kafka 2.6版本,目前正在开源社区中进行开发。

Confluent公司开发人员宣传高级总监Tim Berglund表示,Apache Kafka 2.6即将推出多项创新,这将有助于进一步提高可扩展性。其中的一些功能将使动态配置更改更加实用,并使得更容易观察群集的运行时行为。

Berglund表示:“我在Apache Kafka 2.6中看到主题的是,继续努力成为真正的云原生平台。Apache Kafka从早期就已经在云段运行,而与可观察性、配置和水平扩展相关的KIP(Kafka改进建议)都是云端原生统的标志。”

 

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

邹铮
邹铮

相关推荐

  • Java、JDBC和Postgres

    现在越来越多的企业开始部署PostgreSQL,为什么呢?当你看到这个许可开源数据库所提供的功能,你就不会对此 […]

  • 5个元数据管理最佳实践

    在数据驱动的环境中,元数据不仅仅是数据的副产品;还是综合数据治理战略的关键组成部分。企业需要适当的元数据管理, […]

  • Cockroach Labs增加矢量搜索,更新定价选项

    Cockroach Labs 近日推出矢量搜索功能,旨在使客户能够访问和操作非结构化数据,以训练生成式人工智能 […]

  • 如何使用数据治理成熟度模型

    如果没有强大的数据治理,数据就无法产生有价值的见解以及改善决策。数据治理成熟度模型可帮助企业评估当前的成就水平 […]