我們需要將人工智慧與人類大腦和偏見脫鉤
我們可能需要擺脫人類思維的侷限性
1956年夏天,10名科學家在達特茅斯學院會面,併發明瞭人工智慧。來自數學、工程、心理學、經濟學和政治學等領域的研究人員聚集在一起,看看人工智慧能否如此準確地描述學習和人類思維,以便用機器複製。僅僅十年後,這些科學家為機器人學、自然語言處理和計算機視覺的戲劇性突破做出了貢獻。
儘管自那以後已經過去了很多時間,但機器人學、自然語言處理和計算機視覺仍然是迄今為止最熱門的研究領域之一。可以說,我們專注於教人工智慧像人一樣移動,像人一樣說話,像人一樣看。
這樣做的理由很清楚:有了人工智慧,我們希望機器可以像人一樣行為、閱讀法律合同或購買東西等任務。我們希望這些任務比人類更快、更安全、更徹底地完成。這樣,當機器人承擔我們生活中無聊的任務時,人類將有更多的時間進行有趣的活動。
然而,研究人員越來越認識到,人工智慧在模仿人類思維時,可能會遺傳人類偏見。這個問題體現在亞馬遜的招聘演算法和美國政府的COMPAS演算法中,前者以歧視婦女而聞名,後者不成比例地懲罰黑人。無數其他例子進一步說明了人工智慧中的偏見問題。
在這兩種情況下,問題都是始於一個有缺陷的資料集。亞馬遜的大多數員工都是男性,許多被監禁的人都是黑人。儘管這些統計資料是普遍存在的文化偏見的結果,但該演算法無法知道這一點。相反,它得出結論,它應該複製它提供的資料,這加劇了資料中包含的偏見。
手動修復可以消除這些偏見,但它們帶有風險。如果不正確實施,善意的修復可能會使一些偏見變得更糟,甚至引入新的偏見。然而,人工智慧演算法的最新發展使這些偏見越來越不重要。工程師應該接受這些新發現。新方法限制了偏見汙染結果的風險,無論是來自資料集還是工程師本身。此外,新興技術意味著工程師自己需要減少對人工智慧的干擾,消除更無聊和重複的任務。
當人類知識成為王者時
想象一下以下場景:您有一組來自不同行各業的人,跟蹤他們是否感染了新冠病毒。無論是醫生、護士還是藥劑師,人類都輸入了COVID/無COVID標籤。醫療保健提供商可能有興趣預測新條目是否可能已經感染了新冠病毒。
監督機器學習在解決此類問題時非常有用。演算法可以吸收所有資料,並開始瞭解不同的變數,如一個人的職業、總收入、家庭狀況、種族或郵政編碼,如何影響他們是否感染了疾病。例如,該演算法可以估計三名來自紐約孩子的拉丁裔護士已經感染新冠病毒的可能性。因此,她的疫苗接種日期或保險費可能會被調整,以便透過有效分配有限的資源來拯救更多人的生命。
這個過程乍一看聽起來非常有用,但有陷阱。例如,醫療保健提供商可能給資料點貼錯了標籤,導致資料集錯誤,並最終導致不可靠的結論。這種型別的錯誤在上述就業市場和監管系統中尤其具有破壞性。
監督機器學習似乎是解決許多問題的理想方法。但人類太參與資料製作過程了,以至於無法使其成為靈丹妙藥。在一個仍然遭受種族和性別不平等的世界裡,人類偏見普遍存在,具有破壞性。依賴如此多的人類參與的人工智慧總是有納入這些偏見的風險。
當資料是王者時
幸運的是,還有另一種解決方案可以拋開人造標籤,只處理至少在某種程度上客觀的資料。在COVID預測器的例子中,消除人造COVID/無COVID標籤可能是有意義的。首先,由於人為錯誤,資料可能是錯誤的。另一個主要問題是資料可能不完整。社會經濟地位較低的人獲得診斷資源的機會往往較少,這意味著他們可能已經感染了新冠病毒,但從未檢測呈陽性。這種缺失可能會使資料集傾斜。
因此,為了使結果對保險公司或疫苗供應商來說更可靠,消除標籤可能是有用的。現在,一個不受監督的機器學習模型將進行叢集,例如按郵政編碼或個人職業進行叢集。這樣,一個人可以得到幾個不同的組。然後,模型可以輕鬆地為其中一個組分配一個新條目。
之後,您可以將這些分組資料與其他更可靠的資料相匹配,如地理區域或專業內的超額死亡率。這樣,人們就有可能知道某人是否感染了新冠病毒,無論有些人可能比其他人更容易獲得檢測。
當然,這仍然需要一些手工工作,因為資料科學家需要將分組資料與超額死亡率資料匹配起來。儘管如此,對保險公司或疫苗供應商來說,結果可能要可靠得多。
送機器去賞金狩獵
同樣,這一切都很好,但你仍然把固定疫苗資料或保險單留給過程另一端的人。就疫苗而言,負責人可能會決定稍後為有色人種接種疫苗,因為他們往往較少使用醫療保健系統,從而降低醫院生病時超車的可能性。不用說,這將是一項基於種族主義假設的不公平政策。
讓決策權由機器決定可以幫助規避決策者根深蒂固的偏見。這是強化學習背後的概念。您提供的資料集與以前相同,沒有人造標籤,因為它們可能會扭曲結果。您還向它提供了一些關於保險單或疫苗如何工作的資訊。最後,您選擇幾個關鍵目標,如不過度使用醫院資源、社會公平等。
在強化學習中,如果機器找到符合關鍵目標的保險單或疫苗日期,它將獲得獎勵。透過對資料集的培訓,它找到了最佳化這些目標的政策或疫苗日期。
這一程序進一步消除了人工資料輸入或決策的必要性。雖然它仍然遠非完美,但這種模式不僅可以更快、更容易地做出重要決定,還可以更公平、更自由地擺脫人類的偏見。
進一步減少人類偏見
任何資料科學家都會告訴你,並非所有機器學習模型——無論是監督的、非監督的還是強化的——都非常適合每個問題。例如,保險公司可能希望獲得一個人是否感染了新冠病毒的機率,但希望自己制定保單。這改變了問題,使強化學習變得不合適。
幸運的是,即使對模型的選擇有限,也有幾種常見的做法在很大程度上有助於實現公正的結果。這些大多數根植於資料集。
首先,當您有理由懷疑特定資料點可能受到現有不平等的不當影響時,盲目不可靠的資料是明智的。例如,由於我們知道COVID/無COVID標籤可能出於各種原因不準確,將其排除在外可能會導致更準確的結果。
然而,這種策略不應該與令人眼花繚亂的敏感資料相混淆。例如,人們可以選擇盲目種族資料,以避免歧視。然而,這可能弊大於利,因為機器可能會學習一些郵政編碼和保險單的知識。在許多情況下,郵政編碼與種族密切相關。結果是,一名來自紐約的拉丁裔護士和一名來自俄亥俄州的白人護士,他們擁有原本相同的資料,最終可能會獲得不同的保險單,這最終可能會不公平。
為了確保這種情況不會發生,你可以為比賽資料新增權重。機器學習模型可能會很快得出結論,拉丁裔人感染新冠病毒的頻率更高。因此,它可能會要求這部分人口提供更高的保險費,以補償這一風險。透過給予拉丁裔比白人稍微好一點的體重,我們可以賠償,以至於拉丁裔和一名白人護士最終確實得到了相同的保險單。
然而,人們應該謹慎使用加權方法,因為它很容易為小組傾斜結果。例如,想象一下,在我們的新冠病毒資料集中,只有少數美洲原住民。碰巧,所有這些美洲原住民碰巧都是計程車司機。該模型可能在資料集的其他地方就出租車司機及其最佳醫療保險得出了一些結論。如果對美洲原住民的重量被誇大了,那麼新的美洲原住民最終可能會獲得計程車司機的政策,儘管他們可能有不同的職業。
手動消除不完美模型中的偏見極其棘手,需要大量的測試、常識和人類體面。此外,這只是一個臨時解決方案。從長遠來看,我們應該放下人類的干預和隨之而來的偏見。相反,我們應該接受這樣一個事實,即如果機器獨自一人,有正確的目標,它們就不會像人類那麼可怕和不公平。
以人為本的人工智慧很棒,但我們不應該忘記人類有缺陷
讓人工智慧像人一樣移動、說話和思考是一個光榮的目標。但人類也說和想可怕的事情,特別是對弱勢群體。讓一組人類資料科學家過濾掉人類偏見和無知的所有來源是一項太大的任務,特別是如果團隊本身不夠多樣化的話。
另一方面,機器人並沒有在一個種族和經濟差異的社會中成長起來。他們只是拿任何可用的資料,並做任何他們應該做的事情。當然,如果資料集不好或有缺陷的人類干預太多,它們可能會產生不良產出。但資料集中的許多缺陷可以透過更好的模型來彌補。
在這個時候,人工智慧是強大的,但仍然經常帶有人類偏見。以人為本的人工智慧不會消失,因為人工智慧可以奪走人類之手的平凡任務太多。但我們不應該忘記,如果我們離開機器去做他們的事情,我們通常可以取得更好的結果。