10个大数据挑战以及应对方法

日期: 2022-01-18 作者:George Lawton翻译:邹铮 来源:TechTarget中国 英文

执行良好的大数据战略可以简化运营成本、缩短上市时间并支持新产品。但是,在将董事会讨论的大数据举措付诸实践的过程中,企业面临着各种大数据挑战。

IT和数据专业人员需要构建物理基础架构,以便在不同来源和多个应用程序之间移动数据。他们还需要满足性能、可扩展性、及时性、安全性和数据治理的要求。此外,企业必须预先考虑部署成本,因为它们可能会迅速失控。

也许最重要的是,企业首先需要弄清楚大数据如何以及为什么对他们的业务很重要。

ERP软件提供商VAI的商业智能经理Bill Szybillo说:“大数据项目面临的最大挑战之一是,如何成功应用所获得的见解。”

他解释说,很多应用程序和系统都在捕获数据,但企业往往难以理解什么是有价值的数据,而且无法应用这些见解-以一种有影响力的方式。

从更广泛的角度来看,下面的建议可帮助企业了解这10个大数据挑战以及如何解决这些挑战。

1. 管理大量数据

就其定义而言,大数据通常涉及存储在不同系统和平台中的大量数据。Szybillo表示,企业面临的第一个挑战是将他们从CRM和ERP系统以及其他数据源中提取的超大型数据集整合到统一且可管理的大数据架构中。

他说,当你对正在收集的数据有所了解,通过进行小的调整就可以更容易地缩小见解。要实现这一点,请构建允许增量更改的基础架构。尝试做较大改变可能最终会产生新的问题。

2.发现和修复数据质量问题

当数据质量问题蔓延到大数据系统时,基于大数据构建的分析算法和人工智能应用程序可能会产生糟糕的结果。随着数据管理和分析团队试图引入更多不同类型的数据,这些问题可能会变得更加严重和难以审计。Bundler是一个在线市场,用于寻找帮助人们购买产品和安排发货的网络购物助手,当它扩展到500,000名客户时,就经历了这样的问题。该公司的关键增长动力是利用大数据提供高度个性化的体验、识别追加销售机会,并监控新趋势。有效的数据质量管理是关键问题。

Bundler首席执行官Pavel Kovalenko说:“你需要不断监控和修复任何数据质量问题。”他说,重复条目和拼写错误很常见,尤其是当数据来自不同来源时。为了确保他们所收集数据的质量,Kovalenko的团队创建了一个智能数据识别器,该识别器将重复数据与较小的数据差异进行匹配,并报告任何可能的拼写错误。对于通过分析数据生成的业务见解,这可帮组提高准确性。

3. 应对数据集成和准备复杂性

开源分析平台供应商Knime首席数据科学家Rosaria Silipo称,大数据平台解决了收集和存储大量不同类型数据的问题,并可快速检索分析使用所需的数据。但数据收集过程仍然非常具有挑战性。

企业收集的数据存储的完整性取决于它们的不断更新。这需要保持对各种数据源的访问,并拥有专门的大数据集成策略。

有些企业使用数据湖作为包罗万象的存储库,以存储不同来源收集的大数据集,而没有考虑如何集成不同的数据。例如,各种业务领域会产生对联合分析很重要的数据,但这些数据通常带有不同的底层语义,企业必须消除歧义。Silipo告诫不要对项目进行临时集成,这可能涉及大量返工。为了获得大数据项目的最佳投资回报率,通常最好制定战略方法以支持数据集成。

4. 高效且经济地扩展大数据系统

如果企业没有关于如何使用大数据的策略,他们可能会浪费大量资金来存储大数据。技术和服务提供商ZL Tech的企业解决方案负责人George Kobakhidze表示,企业需要了解大数据分析始于数据摄取阶段。管理企业数据存储库还需要一致的保留策略,以循环淘汰旧信息,尤其是现在,因为COVID-19疫情前的数据在当今市场上通常不再准确。

云管理平台供应商CloudCheckr的产品副总裁Travis Rehl说,因此,数据管理团队应该在部署大数据系统之前,规划好数据的类型、模式和用途。但这说起来容易做起来难。

他表示:“通常,你从一个数据模型开始并进行扩展,但很快意识到该模型不适合你的新数据点,并且你突然需要解决技术债务。”

具有适当数据结构的通用数据湖可以更轻松地有效且经济地重用数据。例如,Parquet文件通常比数据湖中的CSV转储提供更好的性能成本比。

5. 评估和选择大数据技术

数据管理团队有多种大数据技术可供选择,而且各种工具的功能往往重叠。

NoSQL数据库公司Aerospike的首席战略官Lenley Hensarling建议团队首先考虑来自流和批处理源的数据的当前和未来需求,例如大型机、云应用程序和第三方数据服务。例如,需要考虑的企业级流媒体平台包括Apache Kafka、Apache Pulsar、AWS Kinesis和Google Pub/Sub,所有这些平台都提供云计算、本地和混合云系统之间的无缝数据移动。

接下来,团队应该开始评估复杂数据准备能力,为人工智能、机器学习和其他高级分析系统提供数据。规划数据的处理位置也很重要。对于存在延迟问题的情况,团队需要考虑如何在边缘服务器上运行分析和AI模型,以及如何轻松更新模型。企业需要平衡这些功能与部署和管理在本地、云端或边缘运行的设备和应用程序的成本。

6. 生成业务见解

数据团队倾向于关注大数据技术,而不是结果。在很多情况下,Silipo发现人们很少关注如何处理数据。

从企业中的大数据应用程序中生成有价值的业务见解需要考虑各种场景,例如创建基于KPI的报告、识别有用的预测或提出不同类型的建议。

这将需要具有机器学习专业知识的业务分析专业人士、统计学家和数据科学家的共同努力。她说,这些团队与大数据工程团队合作可以帮助提高构建大数据环境的投资回报率。

7. 雇佣和留住具有大数据技能的员工

软件开发和IT外包公司SenecaGlobal战略高级副总裁Mike O’Malley表示:“大数据软件开发面临的最大挑战之一是寻找和留住具有大数据技能的员工。”

这种特殊的大数据趋势不太可能很快消失。S&P Global的一份报告发现,云架构师和数据科学家是2021年需求最大的职位之一。填补这些职位的策略是与已经建立人才库的软件开发服务公司合作。

提供免费IT培训的慈善机构ComIT的创始人兼所有者Pablo Listingart说,另一个策略是与HR合作,找出并解决现有大数据人才的任何缺口。

他表示:“很多大数据计划之所以失败,是因为从项目开始到结束的错误预期和错误估计。”合适的团队将能够估计风险、评估严重性并解决各种大数据挑战。

建立吸引和留住合适人才的文化也很重要。客户数据平台供应商Meiro的首席技术官Vojtech Kurka说,他一开始的设想是,他可以在正确的位置使用一些SQL和Python脚本来解决所有数据问题。随着时间的推移,他意识到,他可以取得更大的进步-通过雇用合适的人,并推广一种让人们快乐和积极的安全公司文化。

8. 防止成本失控

数据集成公司AtScale的创始人兼首席技术官David Mariani称,另一个常见的大数据挑战是“云账单心脏病发作”。很多企业使用现有的数据消耗指标来估计新的大数据基础设施的成本,但这是一个错误。

其中一个问题是,企业低估了对计算资源的需求,更丰富数据集带来更广泛的访问,这需要更高的计算资源。特别是,云计算让大数据平台更容易呈现更丰富、更细化的数据,这种能力会推高成本,因为云系统将弹性扩展以满足用户需求。

使用按需定价模型也会增加成本。一种好的做法是选择固定资源定价,但这并不能完全解决问题。尽管计量器停止在固定数量,但编写不佳的应用程序最终可能仍会消耗影响其他用户和工作负载的资源。因此,另一个好的做法是对查询实施细粒度的控制。Mariani称:“我见过几个客户,由于SQL设计不佳,用户编写了10,000美元的查询。”

CloudCheckr公司的Rehl还建议,数据管理团队在与业务和数据工程团队讨论大数据部署时,提前提出成本问题。定义它的要求是企业的责任;软件开发人员应负责以有效格式交付数据,DevOps负责确保监控和管理正确的归档策略和增长率。

9. 管理大数据环境

随着大数据应用程序跨更多系统增长,数据管理问题变得越来越难以解决。随着新的云架构使企业能够以非聚合形式捕获和存储他们收集的所有数据,这个问题变得更加复杂。受保护的信息字段可能会意外潜入各种应用程序。

Mariani 称:“根据我的经验,如果没有数据治理策略和控制,可能会失去更广泛、更深入的数据访问的大部分好处。”

好的做法是将数据视为一种产品,从一开始就制定内置的治理规则。在前期投入更多时间在识别和管理大数据治理问题,将更容易提供自助服务访问,而不需要监督每个新用例。

10. 请确保理解数据背景信息和用例

企业还倾向于过分强调技术,而不了解数据的背景信息及其对业务的用途。

数据争论工具提供商Trifacta公司首席执行官Adam Wilson说:“企业通常投入大量精力在考虑大数据存储架构、安全框架和摄取方面,但很少考虑引导用户和用例。”

团队需要考虑谁将提炼数据以及如何提炼数据。那些最接近业务问题的人需要与最接近技术的人合作,以管理风险并确保正确对齐。这涉及到思考如何使数据工程民主化。构建一些简单的端到端用例也有助于获得早期胜利、了解限制并吸引用户。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

邹铮
邹铮

相关推荐

  • Java、JDBC和Postgres

    现在越来越多的企业开始部署PostgreSQL,为什么呢?当你看到这个许可开源数据库所提供的功能,你就不会对此 […]

  • 5个元数据管理最佳实践

    在数据驱动的环境中,元数据不仅仅是数据的副产品;还是综合数据治理战略的关键组成部分。企业需要适当的元数据管理, […]

  • Cockroach Labs增加矢量搜索,更新定价选项

    Cockroach Labs 近日推出矢量搜索功能,旨在使客户能够访问和操作非结构化数据,以训练生成式人工智能 […]

  • 如何使用数据治理成熟度模型

    如果没有强大的数据治理,数据就无法产生有价值的见解以及改善决策。数据治理成熟度模型可帮助企业评估当前的成就水平 […]