大数据中的偏见:如何发现它并减轻其影响

日期: 2021-03-14 作者:Kara E. Joyce翻译:邹铮 来源:TechTarget中国 英文

数据管道的不同部分都会产生偏见。人们非常关注在分析过程中可能出现的偏见,但其实偏见可能出现在数据管道的更早期阶段。

俄亥俄州立大学柯万种族研究所高级研究员Kelly Capatosto表示,偏见有可能早在收集数据前就进入数据生命周期。

她说:“如果有人基于调查结果来确定程序、模型或算法的运行方式,那么设计师的先入为主的观念可能最终会融入到该过程中。”

现在对大型数据集及其所包含的偏见的审查越来越多。在目标市场营销等领域中故意偏见可能会有所优势,因为数据偏见可以提供更直接的见解,但大数据偏见会很快成为企业面临的问题。

下面是发现偏见和减轻其影响的方法:

在哪里找到它

Enterprise Strategy Group(ESG)的高级分析师Mike Leone说:“偏见出现在数据生命周期的早期。”

即使在数据收集过程中,也可能会无意中包含偏见。正如Capatosto所说,某些偏见可能会根深蒂固于用于收集数据的调查中,但是由于访问障碍,偏见也可能出现数据收集过程。最近的美国人口普查就是一个例子。

Capatosto说:“语言、贫困、获取技术等方面存在障碍,这使得很难将这种信息有意义地整合到任何给定过程中。”

另一件事是混杂。Capatosto说,算法偏差最突出的问题之一是将身份与一定程度的风险混为一谈。

Capatosto说:“在医疗保健方面,这非常重要,它具有联系人追踪功能,以及如何利用大数据和其他措施来建立围绕健康问题的公共设施和基础设施。”

她引用了最近的一项研究,该研究发现某些社区据称具有更普遍的医疗保健需求,但是满足这些需求的参数是花在医疗保健上的钱。其他研究发现,费用是有偏见的参数,因为有时费用本身首先是获取医疗保健的障碍。

虽然移除大数据中的恶意意图偏见很重要,但有时有必要包含偏见。

Gartner公司副总裁Svetlana Sicular说:“如果数据量很大,你可能只想知道某个特定人群。”

Leone认为,故意偏见在某种程度上意味着分析重点。当涉及个性化或瞄准特定目标人群时,有偏见的数据集可以帮助实现这些目标。

他说:“偏见可为每位客户提供真正定制的体验。”

但是,使用目标数据集来定制受众的体验,并不会引起大数据偏差的大问题。更大的问题是无意识的偏见。

Sicular说:“无意的偏见可以源自不同的目的,包括恶意目的,例如使数据中毒或攻击模型。”

Sicular表示,大数据无意偏见的示例是2019年Apple Card推出。在发行之后不久,该算法被发现为女性设置较低的信用额度。尽管苹果和高盛(Goldman Sachs)声称这种歧视是无意的,但这样的事情可能构成最大的问题,即大数据中出现无意的偏见。

Sicular说:“很多技术,很多平台都试图获得可解释性,解释算法内部发生了什么。”

在整个数据管道中,建立这种可解释性可以减轻无意识的偏见。Capatosto说,这需要首先了解和熟悉大数据偏见的概念。这里的关键是建立透明度和强大的数据治理流程,以消除数据集中的偏差。

她说:“首先,要确保问责制不仅仅是事后的想法。”

多元化团队

Leone说,多元化的数据团队可以确定何时需要故意偏见。Sicular说,一个由具有不同背景的人组成的团队将根据他们的不同经验提出疑问,这些经验可能会改变方法。

她说:“一个人可能不会考虑某些事情。”

但是,如何聘用多元化的团队很重要。目标不仅是拥有一支多元化的团队来校准数据。 Capatosto说,从设计到部署的整个过程中,这些不同的观点都是必要的。

她补充说,数据团队的多样性可以帮助减少大数据中的偏见。她说:“我认为,意见、观点和优势点的多样性将始终有助于尽早发现这些问题。”

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

邹铮
邹铮

相关推荐

  • Java、JDBC和Postgres

    现在越来越多的企业开始部署PostgreSQL,为什么呢?当你看到这个许可开源数据库所提供的功能,你就不会对此 […]

  • 5个元数据管理最佳实践

    在数据驱动的环境中,元数据不仅仅是数据的副产品;还是综合数据治理战略的关键组成部分。企业需要适当的元数据管理, […]

  • Cockroach Labs增加矢量搜索,更新定价选项

    Cockroach Labs 近日推出矢量搜索功能,旨在使客户能够访问和操作非结构化数据,以训练生成式人工智能 […]

  • 如何使用数据治理成熟度模型

    如果没有强大的数据治理,数据就无法产生有价值的见解以及改善决策。数据治理成熟度模型可帮助企业评估当前的成就水平 […]