与云技术提供的现代数据堆栈相比,传统数据堆栈缺乏灵活性和可扩展性。但是,与云数据堆栈相比,本地数据堆栈具有多种优势。
数据堆栈是一组平台、工具和其他使企业能够收集、存储和利用其数据的技术。传统上,数据堆栈位于企业数据中心的本地,并大量使用关系数据库或数据仓库。
现代数据堆栈使用云存储和高级分析工具来创建更灵活和可扩展的选项,每个企业都可以根据其特定需求进行定制。
虽然通常与传统技术相关联,但本地堆栈可以添加高级分析工具,不应仅仅因为缺乏云技术而忽视传统数据堆栈。企业应评估其需求,并可能发现本地数据堆栈比新式数据堆栈更适合他们。
数据堆栈的工作原理
毕马威美国首席数据官Bob Parr说,数据堆栈就像供应链,但用于数据而不是实物商品。就像物理供应链一样,数据堆栈可能涉及多种专业工具、技术和框架。
例如,数据堆栈可能包括评估和修正数据质量以及使用通用代码规范化数据的工具。还可能包括正确构建数据的工具,以存储、整合和分发,用于分析、报告、可视化和洞察生成。Parr说,没有一个供应商或服务可以涵盖所有这些。
几乎每个企业都有某种形式的数据堆栈。现在,大多数数据堆栈都支持云技术。现代数据堆栈的典型示例如下所示:
- Azure Data Factory或 AWS Glue Data 用于数据获取。
- Informatica 的Intelligent Data Management Cloud或 AWS Glue Data Brew 用于提高数据质量。
- Amazon Web Services、S3存储桶、MongoDB Atlas或Azure数据湖用于数据存储。
- Apache Hadoop、Apache Spark或Data Bricks用于数据处理或转换。
- Python编程语言及其库(例如Pandas和NumPy或Dataiku)用于数据分析。
- Tableau 或 Power BI用于数据可视化。
Parr说,上述每个选项都提供一套云服务,以满足企业的大部分需求。
基于云的数据堆栈提供商的优势
Parr说,当企业与微软、AWS或谷歌等主要超大规模企业具有深度合作关系时,他们倾向于将其余数据堆栈与特定的云提供商保持一致。
使用单个云提供商通常有利有弊。例如,云提供商的工具可能更容易集成,并且具有更可预测的成本结构。但是,它们可能无法为每个组件提供一流的功能。
Parr说,基于云的数据堆栈的好处包括可扩展性、增加的可访问性、集成分析、机器学习功能以及降低基础设施和维护成本。
这些商业数据源可以增强企业自己的数据以改进分析。例如,有些公司提供经济数据、天气数据、供应链数据、竞争基准等。
传统数据堆栈有用武之地吗?
Constellation Research副总裁兼首席分析师Holger Mueller说,在过去,传统的数据堆栈只是一个数据库。随着时间的推移,它发展到包括文件系统,以及用于数据集成、质量、清理和重复数据删除的工具。这种演变导致数据仓库和湖屋的出现。
本地数据堆栈的使用正在下降,但它们仍然提供一些好处。Mueller说,传统的数据堆栈为管理员提供对数据基础设施的更高级别的控制,企业可以根据自己的需求和安全要求定制堆栈。
Parr称:“对于处理敏感数据并具有严格合规法规的公司来说,这种控制尤其重要。”
他说,需要实时处理或具有高吞吐量需求的公司可以运行自己的堆栈,以保持一致的性能水平。
使用本地数据堆栈并不意味着企业必须使用旧技术。旧技术通常是指缺乏可扩展性、灵活性和高级功能的过时工具和流程。
Parr称:“它们可能需要手动维护,具有有限的集成能力,并且难以处理大量数据或复杂的分析任务。”
像这样的典型传统数据堆栈可能如下所示:
- SQL用于数据获取。
- Informatica Data Quality用于数据质量。
- Microsoft Access、Db2 或平面文件用于数据存储。
- SAS 或 IBM SPSS 用于数据处理和转换。
- Microsoft Excel用于数据分析的。
- Excel 和 PowerPoint用于数据可视化。
使用本地数据堆栈的企业可以使用高级分析工具对其进行升级。数据科学团队通过本地 BI 和分析系统使用分析和机器学习。
Constellation Research副总裁兼首席分析师Doug Henschen说:“你将使用本地数据集成系统获取数据,该系统处理从大型机或企业规划系统的提取、转换和加载。”然后,本地数据仓库或数据湖平台(例如Hadoop 或 Databricks)会管理数据。
与基于云的数据堆栈相比,除了控制和安全性之外,这些传统系统还有另一个优势,它们可以降低成本。对于可变工作负载,云部署是有意义的。当在短时间内需要更多处理能力时,云计算可以轻松纵向扩展,然后在需求结束时缩减。成本取决于企业使用的内容。
但是,如果公司有一些稳定且可预测的工作负载,他们就会将它们移回本地,Henschen 称:“特别是如果他们从未放弃数据中心并完全迁移到云端。”
管理咨询公司AArete技术服务集团负责人Bhrugu Pange说,传统数据堆栈的另一个用途是用于大型缓慢移动的数据。
他说,这种数据堆栈通常使用关系数据库,例如Oracle、Microsoft SQL Server或PostgreSQL进行数据存储。对于提取、转换和加载函数,它使用 Microsoft SSIS、Informatica 或 Talend 等工具进行数据集成。对于数据分析和可视化,则使用Tableau、Qlik 或 Power BI 等工具。
他补充说:“虽然这个堆栈可以支持大容量,但它通常不支持高频、实时或流媒体、分析和事件处理。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Java、JDBC和Postgres
现在越来越多的企业开始部署PostgreSQL,为什么呢?当你看到这个许可开源数据库所提供的功能,你就不会对此 […]
-
5个元数据管理最佳实践
在数据驱动的环境中,元数据不仅仅是数据的副产品;还是综合数据治理战略的关键组成部分。企业需要适当的元数据管理, […]
-
Cockroach Labs增加矢量搜索,更新定价选项
Cockroach Labs 近日推出矢量搜索功能,旨在使客户能够访问和操作非结构化数据,以训练生成式人工智能 […]
-
如何使用数据治理成熟度模型
如果没有强大的数据治理,数据就无法产生有价值的见解以及改善决策。数据治理成熟度模型可帮助企业评估当前的成就水平 […]