2025年及以后的大数据趋势

日期: 2025-02-02 作者:Donald Farmer翻译:邹铮 来源:TechTarget中国 英文

全球力量(包括技术和非技术力量)正在重塑大数据格局。例如,后疫情时代的持续经济重新校准,推动企业从数据管理和分析投资中寻求更可预测的成本和有形回报。同样,在构建数据架构时,IT团队寻求更大的灵活性,以避免供应商锁定和预算超支。

与此同时,监管环境已经趋于成熟。在2020年代的前几年,零散的数据隐私法已经演变成更标准化的(或者至少更普遍的)法律框架。此外,AI的日益使用正在推动企业从根本上重新思考如何处理和分析敏感信息。隐私不再只是合规性复选框项目;它正在深深植根于数据分析的技术结构中。

我们还看到突破技术的融合。大型语言模型(LLM)和生成式AI工具的普及使人人都可以获得高级分析能力,而多模态AI模型和量子计算的开发进展开始影响长期战略规划。

总体而言,这些力量将推动数据战略和大数据环境的持续变化。以下是7个重要的大数据趋势及其在2025年和未来对企业的影响。

1. AI驱动的分析和代理操作

在过去的两年里,AI改变了大数据分析,而且将继续发挥作用。如上所述,AI为企业中更多用户带来复杂的数据见解。与此同时,数据科学家和其他熟练的分析师发现,他们可以使用AI更有效地处理大型数据集。

例如,自动数据准备可以在非常大规模的范围内实现一致的数据质量。它检测和纠正数据问题,标准化格式,并在没有人工干预的情况下识别潜在的集成点。当企业努力应对不断增长的数据量和多样化的数据源时,这种自动化特别有帮助,从物联网设备到社交媒体信息等。

此外,神经网络算法和LLM现在可以识别数据中的微妙模式和相关性,而这些模式和相关性很难通过传统分析方法检测到。不仅可以实现更复杂的数据分析;它还可以由业务用户进行指导,通过自然语言处理功能或聊天机器人,这些聊天机器人充当数据的接口或作为帮助用户提供见解的助理。

展望未来,AI将越来越多地融入分析工具、数据管理工作流程和业务运营。AI驱动的系统将朝着自主监控数据、识别重要模式的方向迈进,并自行采取行动或提醒业务利益相关者。这些代理AI可实现新的效率和数据驱动的自动化水平。

AI和大数据的日益整合也带来挑战,包括数据治理、AI模型管理以及对负责任和道德的AI的需求。企业需要采取措施,减少AI偏见,维护数据隐私,并确保AI驱动的分析应用程序产生可靠的结果。

2. 更加关注保护隐私的分析

在决策过程中使用AI,通常涉及特定于个人客户或患者的数据,这正在增加对所谓的隐私保护分析的需求:在不暴露敏感或个人身份信息的情况下分析数据的技术和方法。

治理和合规团队必然担心未经授权访问私人信息,例如健康记录、财务数据、购买历史和位置历史。还有一个更广泛的问题:在敏感数据集中训练的AI模型可能会无意中放大数据中存在的偏见。而使用分散或混淆的数据可以降低隐私暴露和偏见放大的风险,同时仍然能够实现有效的数据分析。

差分隐私是一种广泛使用的方法。它以对数据值进行轻微更改的形式将受控噪声引入数据集或查询结果,以掩盖个人级数据点,同时保持信息的整体效用。

另一种流行的技术是联邦学习,它使AI和机器学习模型能够跨分散的数据源进行训练,而无需将原始数据移动到中央服务器。相反,模型在本地设备或系统上的独立进程中学习并分析数据,只有汇总更新(没有敏感细节)与协调服务器共享。在数据安全和隐私对业务和监管原因都至关重要的行业中,这种方法特别有价值,例如医疗保健和金融服务。

预计商业数据和分析平台中将提供这些技术,以支持大数据应用程序。

3. 云遣返和混合云架构的使用

多年来,数据和应用程序转移到云端似乎是一种不可阻挡的趋势,公共云服务的使用仍在强劲增长。然而,现在出现逆向趋势,以云遣返的形式:企业正在有选择地将某些工作负载(包括大数据工作负载)移回本地数据中心或私有云,而不是公共云环境。

这并不是表示对云计算的全面拒绝;相反,它反映出更成熟、更细致的战略。成本管理是关键驱动因素:很多公司超支了云预算,特别是对于AI和机器学习等计算密集型工作负载。在这些情况下,公共云服务的即用即付模式可能会导致意想不到的支出水平,特别是如果使用量迅速增加。与高成本相比,首席财务官更害怕的是不可预测性。

有些企业运行专业数据工作负载并受到严格的监管,也在考虑遣返。例如,金融服务公司和医疗保健公司正在寻求通过精心编排的混合云环境来更好地管理合规性和数据主权要求,其中包括云和本地系统的组合。

4. 数据网格部署以分散数据架构

在其核心,数据网格是一种数据管理策略,既具架构性又具组织性。它将数据所有权从企业IT分散到单个业务领域,例如财务、营销、人力资源和运营。每个域都充当自己的数据组织,生产和维护数据产品(即用型数据集、模型、仪表板等),这些数字产品被视为关键业务资产。

通过优先考虑域驱动设计,数据网格使最接近大数据集的团队能够控制满足其特定数据准备和分析需求。这样做可以减少集中式数据管理模型中经常遇到的瓶颈。

为了使数据网格方法取得成功,域团队必须具备技能和工具以有效管理自己数据产品,即使IT支持他们进行这些工作。数据管理流程还必须有明确的组织问责制。从技术上讲,数据网格的成功取决于良好的元数据管理和数据可发现性。企业经常部署数据目录和自助服务分析工具,以使数据资产易于查找、理解和使用。

云遣返和数据网格架构之间也存在协同作用。虽然云遣返优化混合云环境的工作负载分配,但数据网格提供架构框架,使其更具可管理性和有效性。当结合这两种方法,可以实现高度灵活的环境,在这些环境中,数据产品可以在最有意义的地方托管。

例如,出于监管合规目的,金融服务提供商可以将交易数据存储在本地,同时在云端提供匿名数据集作为分析数据产品,以提高易用性。在这种情况下,数据网格框架确保了此类环境之间的互操作性和可访问性,而无需添加另一个数据层。

5. 数据湖屋作为主要大数据平台

2025年,数据湖屋可能会巩固其作为大数据分析主导架构的地位,数据湖屋已被证明是高效、可扩展和具有成本效益的平台。数据湖屋平台结合了数据湖的灵活性(可处理原始和通常非结构化或半结构化数据)与传统数据仓库的可靠性和性能(可存储合并结构化数据集)。这种综合方法消除了对不同系统的需求,一方面需要支持数据科学工作负载,另一方面需要支持基本商业智能报告。

数据湖屋的单副本架构可减少数据冗余,通过避免不同平台保存同一数据的多个版本。因此,数据工程师可以简化数据工作流程,并降低数据存储成本。对各种数据类型的支持(从高度结构化的关系表到图像和文本)也使数据湖屋成为AI、预测分析、实时数据分析和其他高级分析应用程序的理想平台。

基于所有这些原因,数据湖屋在未来可能会成为企业分析计划和大数据环境的核心。

6. 开放表格式的兴起

作为数据湖屋生态系统的一部分,一个关键发展是开放表格式的兴起,Apache Iceberg成为使用最广泛的格式。其他可用的选项包括Delta LakeApache Hudi

开放式表格式旨在以标准化的方式管理分析工作负载的大规模表格数据。它们与数据湖或数据湖屋特别相关,那里需要高效地存储、查询和更新大型数据集。

这种表格式提供了跨平台兼容性、事务支持和模式演变等功能。后者尤为重要:它是管理和调整数据结构的过程,因为它们随着时间的推移而变化,同时仍然保持数据完整性和向后兼容性。

开放式表格式也降低企业被供应商锁定的风险。当你使用这种表格式时,他们可以避免自己被困在专有而且通常昂贵的大数据平台中,因为迁移到新架构通常很困难。

7. 为量子计算做准备

虽然量子计算仍处于早期阶段,但其潜能吸引着具有高要求计算需求行业的企业,例如制药和金融服务行业,他们已经开始规划未来部署。

量子系统旨在通过解决超出经典计算机当前能力的数据处理挑战,彻底改变复杂的问题解决和大规模模拟。现在,企业正在试验量子技术,他们希望对药物和分子相互作用进行建模,以及其他早期用途。但相同的技术可以很容易地应用于培训AI模型或复杂的业务场景,例如供应链优化和财务规划模拟。

尽管实际的量子应用还没出现,但人们越来越需要预测这项新技术在未来大数据计划中发挥的作用。这包括提高员工技能,以准备和探索混合经典量子计算方法。这些努力在2025年可能会变得更加紧迫:预计会有技术突破,而这将加速大数据环境中对量子准备的需求。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

邹铮
邹铮

相关推荐