算法如何比人類更公平

亞馬遜最近開始提供 當天發貨 在選定的大都市區。 這可能對許多客戶有利,但推出顯示計算機化決策如何也能帶來強烈的歧視。

明智地,該公司開始在交付成本最低的地區開展服務,通過識別許多亞馬遜現有客戶的人口稠密地區的郵政編碼,收入水平足夠高,可以頻繁購買可用於當天交付的產品。 該公司提供了一個網頁,允許客戶輸入他們的郵政編碼,以查看當天是否為他們提供服務。 彭博新聞的調查記者使用該頁面 創建亞馬遜服務區的地圖,以便當天送達.

彭博分析顯示,許多貧困城市地區被排除在服務區之外,而更多富裕的鄰近地區則被包括在內。 其中許多被排除在外的貧困地區主要是少數民族居住的地區。 例如,除了Roxbury之外,所有的波士頓都被覆蓋了; 紐約市的報導幾乎包括了所有四個行政區,但完全排除了布朗克斯區; 芝加哥的報導遺漏了貧困的南區,同時大大延伸到富裕的北部和西部郊區。

雖然人們很容易相信數據驅動的決策是公正的, 研究和學術討論 開始證明這一點 不公平和歧視仍然存在。 在我的 數據倫理在線課程,學生們了解到 算法可以區分。 但可能會有一線希望:正如彭博研究所表明的那樣,基於數據做出決策也可以更容易地發現偏差何時出現。

偏見可能是無意的

像亞馬遜的交付政策那樣的不公平可能出於多種原因,包括 隱藏的偏見 - 例如人口統一分佈的假設。 算法設計者可能不打算區別對待,甚至可能沒有意識到問題已經悄悄進入。


內在自我訂閱圖形


亞馬遜告訴Bloomberg它沒有歧視意圖,並且有充分的理由相信這一主張。 針對彭博報導, 官員其他政治家 亞馬遜呼籲解決這個問題。 公司 快速移動添加 最初被排除在城市郵政編碼的服務區域。

類似的問題一直存在 優步問道這似乎為白人比例較高的地區提供了更好的服務。 很可能會有更多的零售和服務行業未來發現無意識算法歧視的例子。

問過多的算法?

我們應該暫停一下,考慮一下我們是否過度要求算法決策。 經營實體店的公司一直在做出地點決策,同時考慮到與亞馬遜不同的標準。 商店試圖擁有便於大量潛在客戶花錢的位置。

因此,很少有商店選擇在貧窮的市中心社區。 特別是在雜貨店的背景下,這種現像已被廣泛研究,並且術語“食物沙漠“用於描述居民無法方便獲取新鮮食物的城市地區。 這個 位置偏差 對整體零售店的研究較少。

作為一個指示性示例,我查看了密歇根55密歇根州的一個大型綜合零售連鎖店。 當我根據其平均收入是在全州的上半部分還是下半部分對每個密歇根郵政編碼進行排序時,我發現只有16的目標商店(29百分比)來自低收入群體的郵政編碼。 39商店的數量增加了兩倍以上,來自更富裕的一半的郵政編碼。

識別歧視

此外,底特律市沒有Target商店,但其(較富裕的)郊區有幾家。 然而,並沒有普遍的抗議聲稱Target在其商店位置決定中不公平地歧視窮人。 亞馬遜的擔憂有兩個主要原因:僵化和支配地位。

剛性與在線零售商的決策過程和結果有關。 亞馬遜決定在其服務區域中使用哪些郵政編碼。 如果客戶居住在亞馬遜設定的街道對面的街道上,那麼她就不在服務區內,對此可以做些什麼。 相比之下,居住在沒有Target商店的郵政編碼的人仍然可以在Target購物 - 儘管可能需要更長的時間才能到達目的地。

同樣重要的是零售商在消費者心目中的主導地位。 雖然Target只是眾多實體連鎖店中的一家,但亞馬遜喜歡 作為網絡零售商的市場主導地位,因此吸引了更多的關注。 這種支配地位是今天的特徵 贏家通吃 網絡業務。

雖然他們的僵化和支配地位可能會讓我們更加關注網絡業務,但我們也能更好地發現他們的歧視,而不是我們對實體店的歧視。 對於傳統的連鎖店,我們需要猜測消費者願意走多遠。 我們可能還需要認識到時間:距離下一個高速公路出口5英里與通過擁擠的街道到城鎮另一側的5英里不一樣。 此外,旅行時間本身可以根據一天中的時間而廣泛變化。 在確定商店所服務的可能區域後,他們可能不會整齊地映射到我們有關於種族或收入的統計數據的地理單位。 簡而言之,分析是混亂的,需要付出很多努力。

相比之下,只需幾個小時就可以讓彭博的記者開發出亞馬遜服務區的地圖,並將其與收入或種族聯繫起來。 如果亞馬遜在內部完成了這項工作,他們可以在幾分鐘內完成相同的分析 - 並且可能會注意到問題並在即日開始之前修復它們。

人類如何比較?

讓我們看一個非常不同的例子來看看相同的點如何廣泛應用。 最近,ProPublica發表了 對種族歧視的出色分析 通過一種算法來預測罪犯再次犯罪的可能性。 該算法考慮了許多因素併計算概率估計。 ProPublica的分析發現了顯著的系統性種族偏見,即使種族不屬於所考慮的特定因素。

如果沒有算法,人類法官會做出類似的估計,作為量刑或假釋決定的一部分。 人類的決定可能會考慮一系列更豐富的因素,例如刑事法庭的行為舉止。 但我們知道,從 心理學研究,這 人類的決策充滿了偏見即使我們盡力做到公平。

但是,由於人類法官的決定存在偏見而導致的任何錯誤在法官之間可能會有所不同,即使是由同一法官做出的不同決定也是如此。 總的來說,可能存在種族歧視 潛意識偏見但最終確定這一點很棘手。 美國司法部的一項研究發現了強有力的證據 判決白人和黑人罪犯的差異,但無法清楚地確定種族本身是否是這些決定的一個因素。

相比之下,ProPublica所看到的完全相同的算法在許多州的數千個案例中被使用。 它的剛性和大容量使得確定它是否具有區別性的工作變得容易 - 並且可以提供有效糾正問題的方法。

信息技術的使用似乎使線條變得更亮,差異更加明顯,所有這些信息的數據更容易獲得。 昨天在地毯下刷什麼現在吵著要求注意。 隨著我們發現越來越多的數據驅動算法的使用,分析它們的公平性還不常見,特別是在推出新的基於數據的服務之前。 實現這一目標將大大有助於衡量和改進這些日益重要的計算機化計算的公平性。

關於作者談話

HV Jagadish,Bernard A Galler電氣工程與計算機科學系大學教授, 密歇根大學

這篇文章最初發表於 談話。 閱讀 原創文章.

相關書籍

at InnerSelf 市場和亞馬遜