Databricks和Confluent宣布建立合作伙伴关系,其中包括一项集成,旨在使其共同客户更容易使用实时流媒体数据来训练AI模型和应用程序。
Databricks总部位于旧金山,该公司开创了数据湖屋格式,用于管理分析数据。此外,其Data Intelligence Platform 提供的功能使客户能够开发和部署分析、AI模型及应用程序。
与此同时,Confluent是一家位于加利福尼亚州山景城的流媒体数据专家,其Data Streaming Platform建立在Apache Kafka上,使客户能够访问实时运营数据。
这两家供应商之间的双向集成连接了Confluent的Tableflow-该工具允许用户将操作Kafka数据作为表格快速移动到数据存储库中,以及Databricks开发的Delta Lake表存储格式。此外,该集成还连接Confluent的Stream Governance与Databricks的Unity Catalog,以统一数据治理。
该集成发布于2月11日,也是在Databricks披露与SAP的重大集成的两天前。该集成使共同客户可以更轻松地跨独立的运营和分析系统发现和管理数据,从而使AI开发过程更加高效。
因此,BARC U.S.的分析师Kevin Petrie表示,Databricks和Confluent之间的合作关系很重要。
他说:“在Confluent和SAP之间,Databricks正在建立重要合作伙伴关系,以加强其生态系统。Confluent的Kafka产品组合为Databricks用户提供了实时结构化和半结构化数据,以用于AI模型训练、决策和推理。
Petrie继续说,AI的常见应用包括机器学习、预测分析和聊天机器人,如果无法即时访问操作数据,这些机器人就无法正常运作。Kafka整合此类数据,使AI模型能够了解事件和趋势。
Petrie说:”这些数据流丰富了其他数据,这样公司就可以用正确的智能来训练、微调和提示他们的模型。”
集成
随着生成式AI工具能够让人类员工更了解情况并提高效率,对AI开发的整体投资正在激增。然而,很多企业很难从这些投资中获得价值,部分问题在于他们用于训练AI工具的数据。
持续存在的问题是数据质量差,这导致糟糕的输出,并最终导致缺乏信任。
数据管理供应商Ataccama和Hanover Research最近发表的一项研究发现,在300名高级数据领导者中,只有三分之一称在开发和部署AI应用程序方面取得有意义的成功。超过三分之二的人认为缺乏可信数据是阻碍成功的主要问题。
同样,在数据隔离的IT系统中,发现相关数据很困难。Databricks最近对1000多名技术人员的调查显示,只有不到四分之一的人确信他们的数据基础设施能够支持AI应用程序。
Confluent和Databricks之间的集成旨在消除AI成功开发的部分障碍,通过将实时流数据与其他系统整合在单个受监管的位置。
Petrie表示,基于功能的整合,该合作伙伴关系既有利于Confluent和Databricks共同客户,也有利于其中一方的客户,因为现在他们可以通过该集成访问另一家供应商的功能。
他说:“Confluent客户会受益,因为他们与成熟的湖屋平台集成,他们可以在此平台上构建和管理消耗流媒体数据的AI应用程序。Databricks客户也会受益,因为他们可以更轻松地访问实时数据,使他们的模型更加准确。”
Databricks以前具有数据流功能。然而,Databricks数据工程产品营销负责人Ori Zohar表示,该集成添加了连接器,到数百个运营数据源,使共同客户能够轻松地将数据作为Delta表流式传输到Databricks中。
此外,Confluent合作伙伴和创新生态系统高级副总裁Paul Mac Farland表示,尽管共同客户以前可以将Confluent和Databricks连接到流数据,但将Kafka日志转换为Delta表需要复杂、耗时的工程。
通过Tableflow,操作Kafka日志可以转换为Delta表,以便将它们移动到Databricks中进行数据转换、特征工程和模型训练。与此同时,通过加入Stream Governance与Unity Catalog,该集成确保了在运营和分析系统之间移动的数据保持受管理、可追溯和合规。
这里的预期结果是可发现、可信和安全的数据,可用于开发AI工具。
除了将实时Kafka日志转换为Delta Lake表和统一数据治理外,该集成还提供以下:
- 连续数据流,而不是批量文件上传,以加快开发速度。
- 通过提供最新信息来优化模型准确性。
- 将AI驱动的见解发回到操作系统,企业可以自动响应见解,而不需要依赖手动操作。
虽然该集成有利于投资AI开发的Confluent和Databricks共同客户,但这两家供应商也会受益。基于该集成带来的易用性,其中一家供应商可能会吸引另一家供应商的客户。此外,据Zohar称,对于重视开源技术的绿地客户来说,这两家供应商变得更具吸引力。
他说:“对于重视在经过验证的开放格式技术(例如Apache Kafka、Delta Lake和Unity Catalog)上构建解决方案的客户来说,这种新集成非常有吸引力。”
未来
Mac Farland表示,在推出Confluent和Databricks之间的第一次集成后,这两家供应商计划在未来几个月内开发和发布进一步的集成。
此外,Mac Farland说,这两家供应商的销售和营销团队将共同努力,鼓励部署彼此的功能。
与此同时,Petrie建议,随着Databricks继续增加集成并扩展其生态系统,他们应该做更多工作来支持本地和混合基础设施。虽然很多AI项目是在云端开发的,但也有企业选择在更受控的环境中开发AI。
Petrie说:“为了扩大他们的潜在市场,他们应该让客户选择在本地安装Databricks,同时集成到主云平台。Confluent 和 SAP 等合作伙伴可以帮助他们做到这一点。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
作者
翻译
相关推荐
-
最新Aerospike数据库更新优先考虑性能
最新Aerospike数据库更新优先考虑性能效率。 近日Aerospike平台8.0版正式上线,其中通过分布式 […]
-
2025年及以后的大数据趋势
全球力量(包括技术和非技术力量)正在重塑大数据格局。例如,后疫情时代的持续经济重新校准,推动企业从数据管理和分 […]
-
Oracle Exadata更新提升性能以满足AI需求
甲骨文的Exadata平台的最新版本现已普遍可用,此次更新带来性能提升,主要针对AI、分析和在线事务处理工作负 […]
-
人类监督使自动化数据治理成为可能
并非数据治理的所有方面都应该自动化,但你可以部署AI和机器学习,在仔细的人工监督下自动执行重复和耗时的合规检查 […]