構建一個好的資料集需要付出大量的努力,如果它變得更大,則比例更大,人們喜歡大資料集,因為您可以從中訓練出更強大的模型。因此,人們傾向於被資金充足的機構製作的資料集所吸引。
加州大學和谷歌研究中心的一篇新論文發現,少數“基準”機器學習資料集,主要來自有影響力的西方機構,經常來自政府組織,正日益主導人工智慧研究領域。這種“預設”使用高度流行的開源資料集(例如ImageNet)的趨勢帶來了許多令人擔憂的實際、道德甚至政治原因。
全球資料集使用的不平等越來越嚴重,在調查的 43,140 個樣本中,超過 50% 的資料集使用由十二個精英機構(主要是西方機構)引入的資料集。占主導地位的機構包括斯坦福大學、微軟、普林斯頓、Facebook、谷歌、馬克斯普朗克研究所和 AT&T。排名前十的資料集來源中有四個是企業機構。