科學家談如何在AI時代應對資料偏見和不完整性

資料分析和人工智慧（以下簡稱“AI”）正在改變我們的生活。無論是在醫療保健，銀行和金融服務領域，還是在人道主義危機發生時，資料都對如何決策起到決定性作用。但有時，收集和運用資料的方式可能會導致偏見，這會對結果產生重大影響。

在SWIFT研究院召開的關於AI對金融業影響的論壇中，微軟研究院的博士後研究員亞歷山大·奧爾泰亞努（Alexandra Olteanu）就AI領域中道德和人為考量因素的影響，以及該如何消除資料偏見進行了討論。此次訪談是沃頓知識線上與SWIFT研究院合作報告中的一部分。

以下是經過編輯的訪談記錄。

沃頓知識線上：您是如何對AI感興趣的？目前的研究領域主要是哪些？

亞歷山大: 2013年，我當時正在研究如何更好地在人道主義危機期間利用社交媒體，突然我發現我們在收集資料的方式、資料的含義、資料是否對各種機構諸如聯合國或當地行動者有用等方面，都存在各種問題。

我們發現的第一個問題是：人們習慣於根據主題標籤來收集資料。打個比方，2012年當颶風桑迪登陸美國時，有很多像“#桑迪”這樣的標籤，有些人發佈了停電消息，另一些人也發佈了該事件照片但卻沒有使用標籤。因此很多人就被遺漏在資料之外，許多可能與聯合國人道主義事務協調廳相關的資訊就被遺漏了。於是我開始關注這些資料所關聯的人，哪些獲得了更多救助，哪些最終被疏漏了。

沃頓知識線上：您的研究有什麼發現呢？

亞歷山大：在我們的初步研究中，我們發現人道主義機構和研究人員收集的大量資料往往偏向那些知道如何使用社交媒體的人。但任何第一時間回應者應該已經知道CNN或紐約時報的報導，因此他們對這樣的內容並不感興趣。而現場目擊人的報導卻並沒有被關注。我們需要想出一種更好的辦法來瞭解如何在這種情況下獲得這些資料。

沃頓知識線上：您是否想出什麼好辦法？

亞歷山大：是的。更好的方法是建立一個對不同危機都更具普遍性的詞彙或語言模型。例如，獻血不一定只針對某一次特定危機。其它時候也需要，比如有人受傷、房屋受損時。

沃頓知識線上：當你處理人道主義危機時，偏見是一個大問題，因為它會影響誰能夠獲助。在金融服務領域，演算法偏見會帶來什麼後果？

亞歷山大: 紐約州的一項新法律就是一個例子。根據該法律，現在保險公司可以利用社交媒體資料資訊來決定你的保費水準。但事實上這些資訊不完整。

舉個例子，你可能是從農貿市場購買蔬菜，但這些資訊在社交媒體上沒發佈，因而沒人知道你在吃各種蔬菜。而你在麵包店購物時可能正好發佈了這條資訊，保險公司就可能基於此斷定你一直只吃麵包蛋糕。這就是一個證明為何不完整資料會對你產生影響的最好例子。

沃頓知識線上：您提到資料公平性是您現在工作的重心。您能具體闡述一下嗎？

亞歷山大：我的工作著重於資料偏見及其對系統結果的影響。

有兩種都側重於結果公平性的主要研究方法，一個被稱為“個人公平”，主要是要確保相似的人得到相同的對待。這裡的關鍵是我們如何確定哪些人是相似的？應該包括哪些屬性？該使用什麼類型的數學函數？

第二種方法側重於“群體公平”，主要是確保不同人群的錯誤率相似。對於這種方法，問題在於如何定義錯誤，如何計算或彙集跨群體的錯誤等等。挑戰的確很多。有時你不一定清楚到底該如何做正確的事情。

這兩種方法都側重於結果的公平性，還有一種是流程公平。當我們決定採納一個決策時，做決策的流程是否對所有相關人員都公平？這些都是不同類型的工作，而且都在進展中。由於這些區別，我們有上百個可以使用的指標，但不清楚何時使用哪個指標。

沃頓知識線上：那就是說，如果我們使用歷史資料作為基礎編寫演算法，那麼系統中就可能存在一些針對於特定群體的固有偏見，尤其是對少數民族或移民。這一問題該如何解決呢？

亞歷山大: 這是一個大問題。許多系統只知道你顯示的內容。如果你已經意識到過去存在一些問題，也希望未來能夠有所改善，你就必須瞭解該資料群反映的是哪些人，更重要的是，它們是如何反映的。也許你已經囊括了所有人，但你收集資料的方式，哪些信號是你做決定時的重要指標也同樣重要。

沃頓知識線上：有沒有辦法利用資料透明度來讓這些決定更合理？

亞歷山大: 我認為最重要的是需要AI系統能夠證明以及解釋他們的決策。但這也越來越難。至少在最先進的機器學習領域，特別是 “神經網路”，就像一個黑匣子，即使對於開發它們的人也一樣神秘莫測。我們需要更好的方法來調試它們。另一方面，也是人們通常會忽略的一點，這些系統集成的場景極其複雜，規模很大，它們和其它系統相互交錯和依賴。因此，即使你沒有這種黑匣子系統，有時也很難追溯問題所在。這是一個熱門且重要的研究領域。

沃頓知識線上：金融服務業可以從這一研究領域中學到什麼呢？

亞歷山大:首先要瞭解每個數據點都代表一個人。醫療行業在人類實驗領域有很多很好的原則，金融業也應當採用。

此外，金融行業需要瞭解人工智慧並不會提供神奇的解決方案。我們通常會分別評估AI和人，並將它們的資料成果相互比對。有時我們得出的結論是AI更好，但我們更需要去關注當AI與人合作時會發生什麼。

研究表明，醫生會由於人工智慧的使用慢慢喪失一些技能，因為信任AI所做的建議，他們對病症就不再那麼上心，所以實際上AI的應用可能會導致人類表現的退步而非進步。因此，要評估AI與人類結合的工作效果非常重要。我認為在醫學領域我們做的並不好。

沃頓知識線上：有沒有辦法糾正那些錯誤？

亞歷山大：我們需要不斷評估系統，且人們需要學習如何與新系統交互並給予相應的培訓。無論過去還是現在其實一直如此，只不過人們總覺得AI很神奇，就過度相信它了。對於研究機構而言，有一點非常重要，如果我們犯了錯，就應該去圍繞事件的整個過程去考慮到底哪裡出錯。使用者是否有辦法在發生錯誤時有效地告知我們？他們有辦法檢查是否犯了錯嗎？我們修復錯誤的過程是什麼？

沃頓知識線上：在醫療行業與AI打交道的人曾告訴我，醫生經常會在訓練時格外努力，為了取得醫學專業知識，從某種意義上他們甚至需要犧牲人性。但如果有AI可以幫助診斷，那麼醫生可能會變得更加有人情味兒。他們將有時間培養同理心和同情心，並培養AI系統中沒有的其他人類品質。這種想法對嗎？它在金融行業中是否有同樣作用？

亞歷山大：是的，它會改變工作的性質。我個人認為AI不會取代知識驅動的工作，但可能會改變它們。員工的重心可能會發生變化。我也同意醫生可能會有更多時間去思考患者的感受。還有其他方面，例如，病理學家在AI幫助下可能可以有效地查看更多片子。

沃頓知識線上：能否給大家一些總結性的評論？

亞歷山大：有兩點至關重要卻常被忽視。

第一，當您開始系統實施時，您應該更關注資料生成的過程：如何獲得資料集？在此過程中做了哪些類型的決策，包括收集什麼樣的資料、找誰收集、如何存儲、如何展示等等。

另一個更少被關注的方面是對系統和指標的評估。我們關注的許多指標都是 “無法觀測的概念”，是無法真正衡量的。例如，在像Google這樣的搜尋引擎中，你可能需要衡量一些 “相關”的內容。但定義和衡量“相關性”是沒有統一標準的。比如目前通用的兩個指標—該網頁打開次數和頁面流覽時間——很可能並不能真正反映相關性。因此，我們通常並不能確定我們的指標與我們實際的關注點（比如相關性）之間的確切關係。

在許多行業中當我們想關注客戶滿意度時也會發生這種情況，這也是一項很難定義、且更難衡量的指標。衡量方法的不同就會有不同的結果。

因此我希望人們更多考慮這兩個關鍵問題：如何獲得某個資料集、以及衡量這些結果的方式。

科技

科學家談如何在AI時代應對資料偏見和不完整性

如何引用沃顿知识在线文章

用于个人/用於個人:

MLA

APA

Chicago

教育/商业用途教育:

Join The Discussion

No Comments So Far

科學家談如何在AI時代應對資料偏見和不完整性

如何引用沃顿知识在线文章

用于个人/用於個人:

MLA

APA

Chicago

教育/商业用途 教育:

Additional Reading

科技

科技

科技

Join The Discussion

No Comments So Far

教育/商业用途教育: