科学家谈如何在AI时代应对数据偏见和不完整性

数据分析和人工智能（以下简称“AI”）正在改变我们的生活。无论是在医疗保健，银行和金融服务领域，还是在人道主义危机发生时，数据都对如何决策起到决定性作用。但有时，收集和运用数据的方式可能会导致偏见，这会对结果产生重大影响。

在SWIFT研究院召开的关于AI对金融业影响的论坛中，微软研究院的博士后研究员亚历山大·奥尔泰亚努（Alexandra Olteanu）就AI领域中道德和人为考量因素的影响，以及该如何消除数据偏见进行了讨论。此次访谈是沃顿知识在线与SWIFT研究院合作报告中的一部分。

以下是经过编辑的访谈记录。

沃顿知识在线：您是如何对AI感兴趣的？目前的研究领域主要是哪些？

亚历山大: 2013年，我当时正在研究如何更好地在人道主义危机期间利用社交媒体，突然我发现我们在收集数据的方式、数据的含义、数据是否对各种机构诸如联合国或当地行动者有用等方面，都存在各种问题。

我们发现的第一个问题是：人们习惯于根据主题标签来收集数据。打个比方，2012年当飓风桑迪登陆美国时，有很多像“#桑迪”这样的标签，有些人发布了停电消息，另一些人也发布了该事件照片但却没有使用标签。因此很多人就被遗漏在数据之外，许多可能与联合国人道主义事务协调厅相关的信息就被遗漏了。于是我开始关注这些数据所关联的人，哪些获得了更多救助，哪些最终被疏漏了。

沃顿知识在线：您的研究有什么发现呢？

亚历山大：在我们的初步研究中，我们发现人道主义机构和研究人员收集的大量数据往往偏向那些知道如何使用社交媒体的人。但任何第一时间响应者应该已经知道CNN或纽约时报的报道，因此他们对这样的内容并不感兴趣。而现场目击人的报道却并没有被关注。我们需要想出一种更好的办法来了解如何在这种情况下获得这些数据。

沃顿知识在线：您是否想出什么好办法？

亚历山大：是的。更好的方法是建立一个对不同危机都更具普遍性的词汇或语言模型。例如，献血不一定只针对某一次特定危机。其它时候也需要，比如有人受伤、房屋受损时。

沃顿知识在线：当你处理人道主义危机时，偏见是一个大问题，因为它会影响谁能够获助。在金融服务领域，算法偏见会带来什么后果？

亚历山大: 纽约州的一项新法律就是一个例子。根据该法律，现在保险公司可以利用社交媒体数据信息来决定你的保费水平。但事实上这些信息不完整。

举个例子，你可能是从农贸市场购买蔬菜，但这些信息在社交媒体上没发布，因而没人知道你在吃各种蔬菜。而你在面包店购物时可能正好发布了这条信息，保险公司就可能基于此断定你一直只吃面包蛋糕。这就是一个证明为何不完整数据会对你产生影响的最好例子。

沃顿知识在线：您提到数据公平性是您现在工作的重心。您能具体阐述一下吗？

亚历山大：我的工作着重于数据偏见及其对系统结果的影响。

有两种都侧重于结果公平性的主要研究方法，一个被称为“个人公平”，主要是要确保相似的人得到相同的对待。这里的关键是我们如何确定哪些人是相似的？应该包括哪些属性？该使用什么类型的数学函数？

第二种方法侧重于“群体公平”，主要是确保不同人群的错误率相似。对于这种方法，问题在于如何定义错误，如何计算或汇集跨群体的错误等等。挑战的确很多。有时你不一定清楚到底该如何做正确的事情。

这两种方法都侧重于结果的公平性，还有一种是流程公平。当我们决定采纳一个决策时，做决策的流程是否对所有相关人员都公平？这些都是不同类型的工作，而且都在进展中。由于这些区别，我们有上百个可以使用的指标，但不清楚何时使用哪个指标。

沃顿知识在线：那就是说，如果我们使用历史数据作为基础编写算法，那么系统中就可能存在一些针对于特定群体的固有偏见，尤其是对少数民族或移民。这一问题该如何解决呢？

亚历山大: 这是一个大问题。许多系统只知道你显示的内容。如果你已经意识到过去存在一些问题，也希望未来能够有所改善，你就必须了解该数据群反映的是哪些人，更重要的是，它们是如何反映的。也许你已经囊括了所有人，但你收集数据的方式，哪些信号是你做决定时的重要指标也同样重要。

沃顿知识在线：有没有办法利用数据透明度来让这些决定更合理？

亚历山大: 我认为最重要的是需要AI系统能够证明以及解释他们的决策。但这也越来越难。至少在最先进的机器学习领域，特别是 “神经网络”，就像一个黑匣子，即使对于开发它们的人也一样神秘莫测。我们需要更好的方法来调试它们。另一方面，也是人们通常会忽略的一点，这些系统集成的场景极其复杂，规模很大，它们和其它系统相互交错和依赖。因此，即使你没有这种黑匣子系统，有时也很难追溯问题所在。这是一个热门且重要的研究领域。

沃顿知识在线：金融服务业可以从这一研究领域中学到什么呢？

亚历山大:首先要了解每个数据点都代表一个人。医疗行业在人类实验领域有很多很好的原则，金融业也应当采用。

此外，金融行业需要了解人工智能并不会提供神奇的解决方案。我们通常会分别评估AI和人，并将它们的数据成果相互比对。有时我们得出的结论是AI更好，但我们更需要去关注当AI与人合作时会发生什么。

研究表明，医生会由于人工智能的使用慢慢丧失一些技能，因为信任AI所做的建议，他们对病症就不再那么上心，所以实际上AI的应用可能会导致人类表现的退步而非进步。因此，要评估AI与人类结合的工作效果非常重要。我认为在医学领域我们做的并不好。

沃顿知识在线：有没有办法纠正那些错误？

亚历山大：我们需要不断评估系统，且人们需要学习如何与新系统交互并给予相应的培训。无论过去还是现在其实一直如此，只不过人们总觉得AI很神奇，就过度相信它了。对于研究机构而言，有一点非常重要，如果我们犯了错，就应该去围绕事件的整个过程去考虑到底哪里出错。用户是否有办法在发生错误时有效地告知我们？他们有办法检查是否犯了错吗？我们修复错误的过程是什么？

沃顿知识在线：在医疗行业与AI打交道的人曾告诉我，医生经常会在训练时格外努力，为了取得医学专业知识，从某种意义上他们甚至需要牺牲人性。但如果有AI可以帮助诊断，那么医生可能会变得更加有人情味儿。他们将有时间培养同理心和同情心，并培养AI系统中没有的其他人类品质。这种想法对吗？它在金融行业中是否有同样作用？

亚历山大：是的，它会改变工作的性质。我个人认为AI不会取代知识驱动的工作，但可能会改变它们。员工的重心可能会发生变化。我也同意医生可能会有更多时间去思考患者的感受。还有其他方面，例如，病理学家在AI帮助下可能可以有效地查看更多片子。

沃顿知识在线：能否给大家一些总结性的评论？

亚历山大：有两点至关重要却常被忽视。

第一，当您开始系统实施时，您应该更关注数据生成的过程：如何获得数据集？在此过程中做了哪些类型的决策，包括收集什么样的数据、找谁收集、如何存储、如何展示等等。

另一个更少被关注的方面是对系统和指标的评估。我们关注的许多指标都是 “无法观测的概念”，是无法真正衡量的。例如，在像Google这样的搜索引擎中，你可能需要衡量一些 “相关”的内容。但定义和衡量“相关性”是没有统一标准的。比如目前通用的两个指标—该网页打开次数和页面浏览时间——很可能并不能真正反映相关性。因此，我们通常并不能确定我们的指标与我们实际的关注点（比如相关性）之间的确切关系。

在许多行业中当我们想关注客户满意度时也会发生这种情况，这也是一项很难定义、且更难衡量的指标。衡量方法的不同就会有不同的结果。

因此我希望人们更多考虑这两个关键问题：如何获得某个数据集、以及衡量这些结果的方式。

科技

科学家谈如何在AI时代应对数据偏见和不完整性

如何引用沃顿知识在线文章

用于个人/用於個人:

MLA

APA

Chicago

教育/商业用途教育:

Join The Discussion

No Comments So Far

科学家谈如何在AI时代应对数据偏见和不完整性

如何引用沃顿知识在线文章

用于个人/用於個人:

MLA

APA

Chicago

教育/商业用途 教育:

Additional Reading

科技

科技

科技

Join The Discussion

No Comments So Far

教育/商业用途教育: