并非数据治理的所有方面都应该自动化,但你可以部署AI和机器学习,在仔细的人工监督下自动执行重复和耗时的合规检查,以避免违反合规性。
鉴于当今系统架构的规模和复杂性,自动化不仅是一种好处,而且是现代数据治理的必要条件。它可以通过自动化数据发现和分类等重复性任务,让你的数据或IT团队腾出时间专注于重要职责。自动化系统可以监控任何数据更改,并标记可能的合规性问题。根据问题的复杂性,自动化系统也许能够自行纠正它,或通知相关团队进行更深入的观察。
尽管自动化有可能实现更高效的数据治理,但你必须谨慎地与人工监督保持平衡,以确保你的政策和实践有效和有价值。
为什么你应该使用自动化数据治理
数字企业是指任何将其流程广泛数字化并依赖数据进行运营和分析的业务。像这样的企业通常管理多个SaaS应用程序和本地系统的数据,这可能涉及多个云平台、物联网传感器和边缘设备。
维护跨不同地理区域、系统和组织边界的政策会造成复杂性。在数据管理领域,长期以来,任何项目大约80%的努力都用于数据准备和治理,而不是分析、演示或决策支持,这一直是经验法则。如果治理的复杂性增加,那么从数据中收集业务价值的时间就会减少。
未能解决复杂性可能会导致日常管理任务出错,例如数据分类和数据质量。它还通过增加政策在整个数据资产中不始终适用的可能性来影响监管合规性。
最终的主要后果是影响财务。根据IBM的《2024年数据泄露成本报告》,在没有AI协助的情况下,数据泄露的平均成本为488万美元。
自动化数据治理的关键组成部分
自动化可以帮助你在整个组织中大规模应用运营流程和治理实践。同样重要的是,了解你可以自动化的东西,以及人类监督在这个过程中的重要性。
随着企业数据架构变得越来越多样化和复杂,使用的各种治理工具和技术也在不断增加。自动化在三个关键领域提供帮助:数据发现、数据质量和政策管理。
数据发现和分类
数据发现是扫描整个数据基础设施的过程,以识别数据库、文件系统、云存储、SaaS应用程序或边缘设备中存在哪些数据。分类根据其类型、敏感性和业务环境对发现的数据进行分类或编目。数据团队使用分类工具对所有数据资产进行清点,并映射不同数据元素之间的关系。
自动化流程可以持续地进行发现和分类。当你添加新数据源时,自动化会应用正确的分类和映射。通过并购进行创新或快速扩张的企业需要自动化,以便其IT团队能够随时了解任何变化。
知道存在哪些数据只是治理问题的一半。你需要使用治理标签和标签检测,并标记敏感数据,例如个人身份信息(PII)、财务记录或健康信息,以确保正确处理。一种方法是根据合规性要求对数据进行分类,例如欧洲的GDPR或医疗保健的HIPAA,并标记关键数据元素。
数据发现和分类是关键功能:如果你不知道你拥有什么数据,你就无法实现治理自动化。数据目录应用程序使用机器学习(ML)来确保工作在大型分布式数据架构中彻底、准确和一致。
数据质量和数据沿袭
了解你拥有哪些数据是数据治理的重要第一步,但即使在单个应用程序中,数据的质量也会有很大差异。常见的数据质量问题引发了你需要回答的问题:
- 重复。记录有多个副本吗?
- 范围验证。数据是否在预定范围内,例如客户年龄?
- 图案匹配。电话号码等数据是否符合预期模式?
- 完整性和空值。有空值吗?
- 一致性。数据在你的所有数据库中是否保持一致和准确?例如,“状态”字段应包含标准的双字母缩写。
- 及时性。数据有多及时?上次更新是什么时候?
当你建立了数据质量规则,专业工具或自动化脚本就可以有效地测试大量数据。数据质量工具可能还包括可以学习数据新模式的AI功能。AI可以建议模式作为新规则,或将意外记录标记为异常进行审查。
数据质量的重要过程是沿袭跟踪,它使审计师或管理员能够查看数据的常规,以及数据的来自哪里。了解何时、何地以及为什么会发生任何数据更改(甚至是更正)很重要。
数据质量工具或提取、转换和加载工具通常包括自动沿袭分析。
政策执行和合规性
数据发现和质量与自动化配合得很好,因为它们涉及定义明确、不断重复的操作。随着AI和机器学习的发展,有些行动可能不那么清晰,但AI可以推断和应用必要的规则。
政策有点不同。它们比简单的规则更复杂,通常包括多个选项。政策通常包括政策适用内容的定义,如PII。它有关于允许行动的规则。例如,如果某些数据没有加密或只有某些人可以访问,你可能能够移动这些数据。
除了规则外,政策可能还包括在发生违规行为时要采取的行动。政策也可能有一定的范围。例如,一项政策可能仅适用于特定地理区域或特定时期。
由于复杂性增加,政策似乎不太适合自动化。你可以将政策解构为步骤,并实现每个政策的自动化。监控并生成完整政策的审计跟踪。
你可以在不同架构层中自动执行策略。关于数据访问的更简单的规则可能适用于数据存储层,数据库、数据仓库或数据湖。然而,政策通常不仅涉及数据的访问,还涉及数据的使用。你可能有权将客户数据用于分析,但不能用于直接营销。有些政策可能适用于数据目录或分析目录。更复杂的政策可能需要专门的政策管理或合规管理软件,例如,涉及跨多个系统的警报、批准或协调的政策。
人类因素:自动化的最佳做法
自动化可以有效地处理日常任务,但人类的判断仍然至关重要,对于提前设定数据治理战略和优先级。同样重要的是,要确认治理与业务目标一致,并满足立法需求。
很多数据治理决策需要上下文理解和道德考虑,而机器无法处理这些。例如,在医疗保健领域,有些案例涉及需要人工专业知识验证的实验协议。相关的账单或保险流程可能需要人工覆盖。
自动化数据治理有三种常见的人类参与模式:
- 人在环中。积极地将人类纳入决策过程。人类经常根据自动建议做出最终决定。目标是保持道德和正确的行动,例如在健康诊断中,具有人类的洞察力和监督,以防止系统不受控制地运行。
- 人在环外。自动化系统独立运行,无需人为交互。该方法非常适合大批量、低风险操作,例如一些自动分类或数据质量任务。在复杂情况下,缺乏人类监督可能会导致不受控制的问题。
- 人在环上。人类监控运营,必要时进行干预以应用政策和标准。它平衡了自动化的效率和基本的人类监督。就像人在环中一样,它允许自动化流程在道德和操作边界内行事,但没有持续干预。根据你的需求选择合适的模式是治理自动化的重要第一步。
从小做起,逐渐扩大规模
对于自动化治理,重要第一步是,根据你的需求选择合适的模式。所有三种人类参与模式都从定义明确、重复的治理任务的自动化开始,然后进入更复杂的流程。定期评估和调整自动化实践,以确定其有效性。
随着自动化的实施,你可能还会发现你的需求发生变化。例如,你可能会从人在环中开始,但随着你对自动化的信心的增长,你可能会转向应用人在环上。
任何自动化流程的一个重要组成部分是为问题定义明确的升级路径,以便你在自动化系统和治理团队之间建立反馈回路。即使在高度自动化的系统中,一些初始步骤可能仍然是手动,例如生成业务定义。
自动化治理风险和缓解策略
自动化有风险。企业过于依赖自动化系统,可能会错过细微差别或复杂的治理问题,例如知识产权侵权,自动化流程可能无法评估这些问题。
不要低估不同系统和数据源大规模集成的技术挑战。如果在这种情况下的治理“已经超越了人类的复杂性”,那么自动化有助于并使更好的治理成为可能,但它仍然是需要管理的复杂过程。
未来展望
AI有可能改善更复杂的数据治理问题。例如,数据目录现在可以使用生成式AI来详细注释和描述数据元素,从而节省很多小时的重复人类工作。
在根据人类行为的历史例子进行训练后,AI可能会自动化一些目前需要人在环中的决策。然而,随着国际、国家和州级法规的扩展,以涵盖新兴的消费者需求和新技术,监管格局只会变得更加复杂。跟上不断变化的法规,保持自动化决策是一个挑战。
自动化数据治理是管理现代数据景观的强大工具,但所涉及的技术和实践的未来仍然在于在自动化和人类专业知识之间找到正确的平衡。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Oracle Exadata更新提升性能以满足AI需求
甲骨文的Exadata平台的最新版本现已普遍可用,此次更新带来性能提升,主要针对AI、分析和在线事务处理工作负 […]
-
MySQL与PostgreSQL:两款主流开源数据库对比
MySQL和PostgreSQL是两款最流行的开源SQL数据库,两者都可以很好地作为通用数据库。在这两者之间, […]
-
Java、JDBC和Postgres
现在越来越多的企业开始部署PostgreSQL,为什么呢?当你看到这个许可开源数据库所提供的功能,你就不会对此 […]
-
5个元数据管理最佳实践
在数据驱动的环境中,元数据不仅仅是数据的副产品;还是综合数据治理战略的关键组成部分。企业需要适当的元数据管理, […]