Confluent周三推出Tableflow,这是Confluent Cloud中的一项功能,使用户可轻松地将事件数据转换为开放表格式,以便可以集成、访问和分析事件数据。
Apache Iceberg和Delta Lake是两种最受欢迎的开放表格式。与Apachi Hudi等其他开放表格式一样,这两者提供统一界面,类似于用于流式数据处理和批量数据处理的数据库,这可简化与数据存储和分析平台的集成。
对Apache Iceberg的支持现在普遍可用,这使用户能够将Apache Kafka主题(包括架构、元数据和数据类别在内的组织单位)表示为Iceberg表,可加载到任何数据仓库、数据湖屋或分析引擎。与此同时,对Delta Lake的支持现在处于抢先体验版阶段。
Enterprise Strategy Group的分析师Stephen Catanzano表示,Tableflow简化对数据的访问—这些数据可支持分析和AI应用程序,这对Confluent客户来说很有价值。
他说:“Tableflow的全面推出很重要,因为它可增强数据可访问性、治理以及与Apache Iceberg和Delta Lake的集成,使其更容易管理实时和批量处理工作负载。”
Confluent总部位于加利福尼亚州山景城,是一家流媒体数据专家,其平台建立在Apache Kafka上,Apache Kafka是一种开源技术,允许用户实时流式传输数据。
Tableflow于2024年3月推出预览版。
新功能
OpenAI在2022年11月推出ChatGPT,这代表生成式AI技术的显著改进,这也使人们对AI发展的兴趣激增。
生成式AI工具(例如AI助理和代理)可以让员工更了解情况,提高效率,推动企业的发展。然而,生成式AI开发并不简单,要求工程师将企业的专有数据与生成式AI模型相结合,以便应用程序能够理解该企业的独特特征,并对其员工有用。
因此,访问数据至关重要。确保数据质量也同样重要。
Tableflow简化实时操作数据与系统之间的集成,开发人员和工程师利用这些系统来存储数据和提供检索增强生成及其他数据管道(为分析和AI应用程序提供信息)。此外,作为Confluent Cloud的一部分,在数据生成时会应用数据治理,确保其符合组织和监管标准。
BARC U.S.的分析师Kevin Petrie指出,代理AI开发正在上升,代理通常部署用于实时应用程序。与此同时,他继续说,表格是AI和机器学习模型输入的主要来源。
因此,将操作数据流转换为开放格式表,满足很多开发人员的需求。结合Confluent对众多矢量数据库的支持(这是结合结构化和非结构化数据以及实现相似性搜索以发现相关数据的关键手段),Tableflow具有简化AI开发的潜力。
Petrie说:“通过使用矢量或关系RAG工作流,Tableflow和矢量搜索可帮助AI部署者为他们的生成式AI语言模型提供专有数据。”
除了将事件数据转换为开表格式外,Tableflow的发布还允许用户为Iceberg和Delta表选择最适合其需求的存储桶(例如Amazon S3),并支持与AWS、Dremio、Snowflake和Starburst等Confluent合作伙伴的平台的直接集成。
Catanzano表示,通过允许Tableflow用户选择他们首选的存储桶,Confluent使客户能够根据自己的需求存储数据,而不是强迫他们调整到Confluent的首选存储方法。
他说:“Tableflow的正式版本中的突出特点是自带存储功能。它使客户能够完全控制其数据存储,同时确保符合独特的数据所有权要求。”
当被问及开发Tableflow的动力时,Confluent的宣传和开发人员体验工程总监Adi Polak表示,主要是基于人们对AI开发的兴趣激增。
鉴于其复杂性,很多企业一直在努力有效地开发和部署AI工具。因此,提供简化开发的能力对供应商来说这是机会。
Polak说:“很多用户质疑他们是否有正确的流式处理和分析策略,这揭示将运营数据流式传输到分析领域的挑战和复杂性。
除正式推出Tableflow外,Confluent还为Apache Flink添加新的Confluent Cloud功能。
Apache Flink是开源流处理框架,它允许用户在收集数据时过滤、整理和丰富实时数据,以促进实时决策。
Confluent的新功能包括以下:
- Flink Native Inference,通过允许用户直接在Confluent Cloud中运行开源或微调模型来简化开发工作流程。
- Flink搜索,该功能允许用户使用单个界面访问来自多个矢量数据库的数据,包括MongoDB和Pinecone。
- 机器学习功能,简化数据科学任务,例如预测和异常检测。
Catanzano表示,Flink Native Inference可能是亮点,因为它允许用户在Confluent Cloud而不是第三方环境中运行模型,从而提高灵活性、安全性和成本控制。
他表示:“Flink Native Inference尤为重要。”
展望未来
Polak表示,正如Tableflow的推出所证明的那样,Confluent专注于更轻松地使用流媒体数据来训练和更新AI模型和应用程序。
Petrie表示,为此,Confluent应该会扩大其伙伴关系网络,并增加与AI开发框架的集成。
他说:“Confluent的生态系统是战略的一部分。我可能会建议在开发人员领域与LangChain等公司合作。”
其他AI开发框架包括Hugging Face、TensorFlow和PyTorch。
Catanzano还建议,Confluent可以通过增加与AI和机器学习平台的更多集成来发展。
他说,展望未来,Confluent可能会通过深化AI和机器学习的集成来继续发展。“这是大多数数据供应商正在走的方向。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
作者
翻译
相关推荐
-
Teradata推出矢量存储以推动AI开发
在3月3日,Teradata推出Enterprise Vector Store,该功能将使客户能够几乎即时处理 […]
-
Confluent和Databricks联手简化AI开发
Databricks和Confluent宣布建立合作伙伴关系,其中包括一项集成,旨在使其共同客户更容易使用实时 […]
-
最新Aerospike数据库更新优先考虑性能
最新Aerospike数据库更新优先考虑性能效率。 近日Aerospike平台8.0版正式上线,其中通过分布式 […]
-
2025年及以后的大数据趋势
全球力量(包括技术和非技术力量)正在重塑大数据格局。例如,后疫情时代的持续经济重新校准,推动企业从数据管理和分 […]