sponsored links

走進高維空間之“維度魔咒”,所有的“鄰居”都去哪了?

走進高維空間之“維度魔咒”,所有的“鄰居”都去哪了?

歡迎來到 "走進高維空間系列 "的第五部分,在這裡我們將探索高維空間的一些奇怪和反直覺的奇觀。距離高維空間系列第四部分:”走進高維空間——機率論與高維空間的深層次聯絡“已經有一年多了。在閱讀第五部分之前,我建議先瀏覽以下前四部分內容。

簡單回顧以下前四部分的內容:

  1. 第一部分我們得出:在無限維空間中球體的體積都集中在邊界上,我們只能知道這個結論,但是無法想象!
  2. 第二部分的結論是,在高維空間中,內切於球內的立方體不完全在球體以內
  3. .在第三部分中,我們推匯出,在無限維空間中,點與點之間的距離都是相等的
  4. 第四部分討論的是高維空間與機率論的聯絡。

這些瘋狂的、無法想象的高維空間現象讓人興奮,我們只能藉助數學等工具去理解它們的真正含義。這篇文章,我們將見證這些奇蹟之一是如何影響一個廣泛使用的統計工具的。讓我們開始吧!

預測問題

在各種領域中,人們通常會根據一個或多個預測變數的值來預測某個響應變數的值。也許我們希望預測一個病人在出院後30天內再次入院的機率(響應),因為有各種人口統計學和臨床特徵(預測因素例如,年齡、是否有併發症、實驗室測量)。或者,我們希望根據房屋的各種特徵(如鄰里關係、臥室數量、面積)來預測房屋的銷售價格。或者我們希望根據各種環境和農業特徵(如降雨量、土壤成分、害蟲管理策略)預測作物產量。

可靠地預測某些響應變數的值的能力是非常強大的,有大量的方法可以解決這類問題,每種方法都有不同的優點和侷限性。今天,我們將特別關注其中的一個方法,因為它非常直觀,最重要的是,它給我們提供了一個觀察高維空間的一些奇蹟的機會。

K-近鄰演算法(K-Nearest Neighbors)

如果我們想用一組特定的預測值來預測一個新的資料點的響應值,我們只需檢視訓練資料,找到所有具有完全相同的預測值的資料點,並計算出對這些訓練資料點觀察到的響應值的平均值或中位數。問題是,我們通常沒有如此豐富的訓練資料,而且很少有跨越所有可能的預測值組合的訓練資料。當我們想預測一個新的資料點的響應值時,我們可能有一些類似的訓練資料點的響應值,但沒有完全相同的預測值組合。那該怎麼辦呢?構建一個模型。

為預測-響應關係建模的一種方法被稱為K-近鄰演算法。為了理解這種方法,讓我們把預測變數看作是代表一些高維的預測空間。也許你想知道這意味著什麼,但這其實很簡單,如果我們正在處理番茄作物資料,也許在第一軸(即維度)上有總降雨量,第二軸上有土壤硝酸鹽水平,第三軸上有土壤pH值,第四軸上有平均溫度,等等。因此,我們的每一個數據點都代表了高維空間中的一個點,它在該空間中的座標取決於它對每個預測變數的值。例如,讓我們看一下三維作物預測空間中的幾個點。

走進高維空間之“維度魔咒”,所有的“鄰居”都去哪了?

這裡,綠色的點代表降雨量為8、土壤硝酸鹽含量為35、pH值為6的作物;藍色的點代表降雨量為4、土壤硝酸鹽含量為25、pH值為7.5的作物;而橙色的點代表降雨量為6、土壤硝酸鹽含量為45、pH值為7的作物。假設我們知道與這些西紅柿作物中的每一種相關的作物產量。

走進高維空間之“維度魔咒”,所有的“鄰居”都去哪了?

通常情況下,我們會將產量(即響應變數)作為一個額外的軸/維度進行視覺化,但我在這裡沒有這樣做,因為我們只能將三個維度視覺化化。

比方說,現在是春天,我們正在種植新的西紅柿作物。我們有土壤的硝酸鹽水平和pH值,而且我們對預期的降雨量有一個很好的概念。我們把這個新作物表示為下面的紅點。

走進高維空間之“維度魔咒”,所有的“鄰居”都去哪了?

利用原來三個點的作物特性和產量,我們如何估計新的紅色點的產量?有一種方法,叫做(單)近鄰法,就是用原來三個點中最接近的作物產量來估計。我們會期望最近的點有大致相似的降雨量和土壤成分。看起來橙色點離紅色點最近(產量為40000)。然而,從一個數據點推匯出估計,不覺得有點不靠譜嗎?也許與橙點相關的產量是一個意外,同樣的特性在其他年份產生的產量可能會低得多。只有3個數據點,沒有什麼操作空間,但如果有數百個資料點呢?

走進高維空間之“維度魔咒”,所有的“鄰居”都去哪了?

現在,加入紅點所代表的新作物。

走進高維空間之“維度魔咒”,所有的“鄰居”都去哪了?

同樣,我假設我們知道所有藍點的作物產量,並希望利用這些資訊來估計紅點的作物產量。我們是否應該再次採用K-近鄰演算法? 下面,我們找出離紅點最近的20個“鄰居”。

走進高維空間之“維度魔咒”,所有的“鄰居”都去哪了?

為了估計紅點的作物產量,取這20個近鄰的作物產量的平均值似乎很合理,對嗎?在這個例子中,我們只是在三維空間中運算,但這個方法可以推廣到任何維度。

我們如何定義 "最近的"?普通的歐幾里得距離?還是像馬氏距離( Mahalanobis distance )這樣更細微的東西(它包含了不同預測因子之間的變化和關係)?這些問題都很重要(而且超級有趣),但答案與我們現在所要討論的無關,所以我將把它們放在以後的文章中。

讓我們繼續向前進:高維空間!

鄰居們,你們好!

在接下來的部分中,我們將從有趣的應用例項(例如病人、家庭、農作物)中“撤退”,進入一個簡化的空間。想象一下,我們正在處理只有一個預測變數和一個響應變數的資料;因此,預測空間只有一個維度。我們還可以想象,預測變數的值是沿著預測變數的範圍均勻分佈的。為了簡單起見,我們使用一個只能在-0.5和0.5之間取值的預測器,這樣,預測器的範圍是一個單位長度

同樣,假設我們有一組資料點的預測值和響應值(稱為訓練資料點,因為這些是用來訓練K-近鄰模型的點)。讓我們用藍色來說明這些訓練資料點。

走進高維空間之“維度魔咒”,所有的“鄰居”都去哪了?

我們可以看到,訓練點似乎是沿著單一預測器的所有可能值均勻分佈的。現在,我們要預測一個新的點(稱為索引點)的響應值,下面用紅色表示。

走進高維空間之“維度魔咒”,所有的“鄰居”都去哪了?

正如我們上面所學到的,K-近鄰演算法的一般想法是確定在預測器空間中與索引點最接近的訓練資料點,然後利用這些訓練點的響應值來估計索引點的響應值。重要的是,我們只使用預測器空間中靠近的訓練點來為估值提供資訊。如果使用在預測空間中很遠的訓練資料點,那麼它們可能不能很好地代表索引點的響應值,而我們的最終估計值可能與事實相差甚遠。

在這個例子中,假設使用最接近索引點的10%的訓練資料點,從索引點出發,需要在預測器空間中達到多遠才能捕獲10%的訓練資料?更具體地說,需要在鄰域中包括多大比例的預測值範圍?

單預測器的情況實際上很簡單。因為訓練資料點是沿著單一維度均勻分佈的,而預測器的範圍是[-0.5,0.5],為了捕獲10%的訓練資料點,只需要包含預測器範圍的10%。如下圖所示:

走進高維空間之“維度魔咒”,所有的“鄰居”都去哪了?

看上去很合理,對嗎?我們不需要離索引點太遠,就可以把10%的訓練資料納入,只需要在兩個方向上取0.05個單位。目前看起來沒什麼特別,也許還有點無聊。讓我們看看當入一個更高的維度時會發生什麼。

鄰居的秘密

假設我們有兩個預測器,每個預測器的範圍是-0.5到0.5,訓練資料點沿兩個維度均勻分佈。

走進高維空間之“維度魔咒”,所有的“鄰居”都去哪了?

這是我們的索引點:

走進高維空間之“維度魔咒”,所有的“鄰居”都去哪了?

同樣,我們希望捕捉10%的訓練資料點。要做到這一點,每個預測器的範圍中必須包括多少比例的鄰居?也許我們可以把上面看到的擴充套件一個維度,我們將需要第一個預測器的10%和第二個預測器的10%。讓我們來看看(我把訓練點淡化了一些,以便更好地觀察):

走進高維空間之“維度魔咒”,所有的“鄰居”都去哪了?

這是高維空間的奧秘中的另一個轉折點!在單維空間中,我們只需要在索引空間的任何一個方向上取0.05個單位就可以捕獲10%的訓練資料。而現在,我們似乎必須從索引點的任何一個方向取0.16個單位,才能捕獲10%的訓練資料!就其預測值而言,鄰域外圍的訓練點真的與索引點那麼相似嗎?答案最終將取決於資料的性質,但必須承認,當我們的目標是包括預測值與索引點儘可能相似的點時,包括每個預測器的近三分之一的範圍似乎有點寬泛了。

我們繼續,向三維預測器空間邁進! 下面是我們沿三個維度均勻分佈的訓練資料點雲(左),以及索引點(右)。

走進高維空間之“維度魔咒”,所有的“鄰居”都去哪了?

也許你已經知答案,但我再次提出問題:為了獲得10%的訓練點,應該怎樣取值?

走進高維空間之“維度魔咒”,所有的“鄰居”都去哪了?

將近50%! 讓我們消化一下:

  • 在單維中,只需要包括單個預測器範圍的10%,就可以定義一個包括10%的均勻分佈的訓練資料的鄰居。
  • 在兩個維度上,需要兩個預測器的範圍各佔32%。
  • 在三個維度上,需要三個預測器範圍中的每一個的46%!

這裡的基礎數學其實很簡單,真正的精彩在最後。

讓我們用一個例子來說明這個問題吧,記得農作作物例子嗎? pH值的範圍是0-14。如果我索引點的pH值為7,那麼就要在一個維度上包括pH值為6.25-7.75的訓練點(直覺上似乎是合理的,對嗎?),在兩個維度上包括4.6-9.4(這合理嗎?),在三個維度上包括3.55-10.45(這似乎開始離譜了)。將這些點稱為鄰居還有意義嗎?

延伸

在應用統計學中,使用幾十個、幾百個、甚至幾千個預測因子是很常見的。如果在三個維度中,每個預測器的範圍有近50%是用來捕捉10%的訓練資料的,那麼在10個維度中呢?100個維度呢?

下面的圖對1到100個維度之間的每一個維度回答了這個問題。具體來說,我們把維度(即預測器)的數量放在X軸上,把每個預測器的範圍比例(捕獲10%的訓練資料所需)放在Y軸上。

走進高維空間之“維度魔咒”,所有的“鄰居”都去哪了?

在圖的最左邊,我們看到了在一維、二維和三維方面的情況。然而,當達到10個維度時,幾乎需要每個預測器的80%的範圍!在50個維度時,需要95%的預測器範圍。 到了100個維度,需要98%!

我們的目標是確定那些預測值與索引點儘可能相似的訓練點。在這些更高的維度上,幾乎把預測器的任何值的點視為鄰居,並將使用它們來估計索引點的響應值。在我們設計的具有均勻分佈的預測因子的例子中,應用K-近鄰演算法在一個維度上似乎是完全合理的,但在更高的維度上很快就會變得離譜。真實的資料集不會和我們探索的資料集一模一樣,但這種需要進一步深入預測器空間來尋找附近點的想法依然存在。

所有的鄰居都去哪兒了?

讓我們來探討一個稍微不同的問題。之前,我們調查了在每個維度上取多少範圍才能捕獲10%的訓練資料。現在,讓我們看看,如果把鄰居的邊界限制在每個預測器範圍的10%,能找到多少個鄰居。在K-近鄰演算法的背景下,在空間上與索引點接近的訓練點似乎很適合為索引點的響應值的估計提供資訊。在一個維度上,一個包括10%的單一預測者範圍的鄰域包含了10%的訓練資料。在更高的維度上會發生什麼?讓我們來看看。

下面的圖在X軸上顯示了從1到10的維度,在Y軸上顯示了覆蓋每個預測器範圍的10%的鄰域所捕獲的訓練資料的比例。

走進高維空間之“維度魔咒”,所有的“鄰居”都去哪了?

所有的鄰居都去哪了?同樣,在一個維度上,鄰域覆蓋了10%的訓練資料。在二維,只有1%的訓練資料! 如果我們把一個索引點的鄰域定義為覆蓋每個預測者範圍的10%,那麼一個10維的鄰域將只包括訓練資料的0.00000001%。

讓我們用訓練資料點的實際數量來重新定義這些數字,而不是百分比和比例。比方說,有100,000個訓練資料點。這意味著,10維鄰域平均來說,甚至沒有捕捉到一個數據點(它將捕捉到0.0001個數據點)。這意味著,平均而言,每一萬個鄰域中,我們只能捕捉到一個鄰域!這意味著很多空的鄰域。這就是大量的空鄰居!

因此,用一個直觀合理的鄰域大小(覆蓋每個預測因子範圍的10%),在更高維度上基本上沒有鄰域。而這裡只到了10維!如果是100維,100萬維呢?

你已經進入了一個新的領域。進入了沒有鄰居的地方! 鄰居們都去哪兒了?為什麼這些空間如此空曠?這些都是貫穿於高維空間的永恆的問題,這些問題引起了(並困擾著)許多統計學家,被精緻地稱為維度詛咒!

總結

我們在高維空間旅程到此結束。我們不僅親身體驗了這些空間的孤獨,而且還看到了這種孤獨是如何影響一個著名的統計工具,著名的K-近鄰演算法的。

我們再一次看到,高維空間充滿了神秘和驚奇。在舒適的低維物理現實中認為理所當然的特徵在高維空間中變得無法辨認。

`

分類: 科學
時間: 2021-09-30

相關文章

80後兩孩夫婦打造145㎡現代美式四居室,打破有娃必亂的生活魔咒

80後兩孩夫婦打造145㎡現代美式四居室,打破有娃必亂的生活魔咒
本案例業主姚先生夫婦是80後,一家四口居住,希望房子能裝修出自己喜歡的效果. 夫妻二人有著輕鬆而時髦的生活追求, 家裡還有兩個可愛的小公主,所以設計師打破有娃家庭必亂的魔咒,平衡孩子與家長在家居配比, ...

松花江魔咒:杜聿明攻瀋陽取長春易如反掌,為何不敢過江追擊林彪

松花江魔咒:杜聿明攻瀋陽取長春易如反掌,為何不敢過江追擊林彪
東北戰場有一個世人不太熟悉的"松花江魔咒". 1946年5月,佔盡優勢的東北國民黨軍,連克四平.長春之後,把林彪主力逼退到松花江北岸.然而詭異的是,杜聿明坐擁40多萬人的優勢兵力( ...

MIT數學家團隊解決了高維空間裡的等角線問題:過去70年未解決的難題
平面上透過一點的直線,要保證任意兩條直線所成的夾角相等,則直線最多可有幾條呢? 答案是3條直線.它們是正六邊形的透過對稱中心的那3條對角線.(或許有人說,有兩條線所成角是120°吧,它的補角啦) 等角 ...

出生不幸的小橘貓,愛上了戶外旅行,擺脫了十橘九胖的魔咒

出生不幸的小橘貓,愛上了戶外旅行,擺脫了十橘九胖的魔咒
喜歡貓咪可以關注下"老胡說貓",分享養貓知識.救助故事.種草貓物,帶你走進貓的世界! 在遙遠的北歐挪威,有一隻小橘貓,它有著和變形金剛裡元始天尊一樣霸氣的名字Primus(普里默斯 ...

萬科魔咒:恆大岌岌可危 寶能欲步後塵 融創瑟瑟發抖
財聯社(上海,編輯 付瀟閱)訊,近期,市場雷聲四起.風聲鶴唳. 恆大相繼被報道遭人民銀行.銀保監會約談.部分專案停工.區域樓盤停貸,甚至有"破產重組"傳聞流出:寶能集團則被報道9月 ...

美國顯赫律師世家纏上"死亡魔咒"這背後,是一場駭人聽聞的陰謀

美國顯赫律師世家纏上"死亡魔咒"這背後,是一場駭人聽聞的陰謀
最近幾年,美國民眾最關注的懸案,莫過於南卡羅來納州Murdaugh家族的"死亡魔咒案". 幾年來,聲名顯赫的法律世家Murdaugh家族接二連三出事,周圍人不是遭遇意外事故,就是無 ...

離婚冷靜期:民國“婚姻自由”能逃開“理想與現實”的魔咒嗎?

離婚冷靜期:民國“婚姻自由”能逃開“理想與現實”的魔咒嗎?
(寫文不易,您的點贊和關注就是對我最大的支援哦~) 導語 從今年1月份開始,夫妻申請離婚的都會面臨"離婚冷靜期",是指提出離婚後的三十天內可以撤回離婚登記.而新規實施以來,確實有一 ...

“限遊令”來了!未成年人為啥沉迷遊戲?氪金“魔咒”如何破解?

“限遊令”來了!未成年人為啥沉迷遊戲?氪金“魔咒”如何破解?
影片請見下面連結: 沉迷遊戲攀比氪金.一紙限令,不要楊永信!國家出手"戒網癮"! 大家好,沉迷快樂水,拖更是日常的博士終於更了. 最近,國家針對遊戲.電競行業的亂象出臺一系列整治政 ...

連續爆冷!三大奧運冠軍集體出局,全運會成射擊女將“魔咒”?

連續爆冷!三大奧運冠軍集體出局,全運會成射擊女將“魔咒”?
在昨天進行的全運會女子25米手槍資格賽中,出現了令觀眾瞠目結舌的一幕,剛剛奪得東京奧運會金牌的姜冉馨無緣決賽,同樣參加了東京奧運會的肖嘉芮萱和熊亞瑄也都早早出局.此外,兩位前奧運冠軍郭文珺和張夢雪也沒 ...

如何破7虧2平1贏的魔咒
股市存在一個7虧2平1贏的現象,但個人認為這只是一個魔咒.這個魔咒是可以被打破的.如果你想從這個7裡面解放出來,成為那個1,那麼必須刮骨療傷,徹徹底底改變你原有的錯誤的操作理念. 1.市場只存在三種趨 ...

還有完沒完?《長津湖》也被指侵權,荒謬的爆款魔咒何時休

還有完沒完?《長津湖》也被指侵權,荒謬的爆款魔咒何時休
沒完沒了! 又一部爆款電影被指控侵權或抄襲. 沒錯,正是正在熱映的<長津湖>. 說來搞笑. 好像只要是現象級電影,就會有人蹦出來說抄襲侵權. 這一次倒不是抄襲了,居然是商標侵權. 一個叫郝 ...

痛心疾首!韓國男藝人都難逃發福魔咒?車銀優李鍾碩都難以倖免

痛心疾首!韓國男藝人都難逃發福魔咒?車銀優李鍾碩都難以倖免
偶然刷到他↓ 不由得想起金明洙, 明明原來在舞臺上光芒四射, 就算落淚也很動人, 少年感十足, 而現在,從S, 到L, 再到如今的XL, 這些年他究竟經歷了啥啊? 所以-韓國男藝人都難逃韓式發福的命運 ...

金泳三為何可以打破韓國總統魔咒併成首位獲國葬殊榮的韓國總統

金泳三為何可以打破韓國總統魔咒併成首位獲國葬殊榮的韓國總統
我們都知道韓國的總統有毒,韓國的總統,很難有好下場,自第一任總統李承晚始到第12任總統朴槿惠,12人中卸任後被曝有罪的有5人,被刺殺的有1人,非正常卸任的有6人,既能正常卸任又無罪加身的也就只有金泳三 ...

一開學就生病“魔咒”怎麼破?
來源:長沙晚報 長沙晚報全媒體記者 楊雲龍 通訊員 吳靖 秋季開學以來,咳嗽和流鼻涕的小朋友多了起來,帶孩子看病的家長几乎眾口一詞:孩子在家可好了,怎麼開學才幾天就生病了?是流行病毒嗎?湖南省人民醫院 ...

打破宿舍“熄燈”魔咒,學生黨實測EcoFlow 正浩RIVER mini戶外電源

打破宿舍“熄燈”魔咒,學生黨實測EcoFlow 正浩RIVER mini戶外電源
限電,到點拉閘是大學宿舍生活的熱門話題, 初衷其實還是好的,保證用電安全和睡眠時間,精力充沛的學生黨可不這麼看,當你組隊正酣時.挑燈夜讀時.和女友影片時,突然就熄燈了,這誰能受得住,但除了指天罵地和捶 ...

一家7口人,6個子女都中了死亡魔咒
這是一個悲傷的故事. 趙高峰老伴去世很早,他一個人帶著六個子女生活. 三個男孩,三個女孩每個都很孝順,本應該很幸福的一家人,但不知什麼原因,厄運卻頻頻降臨到這個不幸的家庭. 大兒子趙天龍,聰明帥氣學習 ...

紅顏薄命的魔咒
都說福生醜人身,紅顏多薄命. 我不懂易經,也不懂命理學,但是細數身邊的熟悉的人,又彷彿有一雙看不見的手,在撥弄著喜怒哀樂,有人用性格決定命運來解析,有人用命中註定來接受. 香姐從小便沒了娘,為了父親與 ...

三代人同住52m小家,半點空間不敢浪費,裝修後鄰居直呼太羨慕了

三代人同住52m小家,半點空間不敢浪費,裝修後鄰居直呼太羨慕了
這次要為大家分享的這個戶型,讓不少設計界的朋友直呼驚呆了!僅僅是52平米的一個小家,三代人同時居住在裡面,為了能夠將空間完全利用起來,半點空間都不敢浪費.當裝修結束之後成品的樣子,直接讓鄰居羨慕得合不 ...

美國知名律師買兇殺自己,結果沒死成,還牽扯出一堆家族陰謀醜聞

美國知名律師買兇殺自己,結果沒死成,還牽扯出一堆家族陰謀醜聞
本月初,美國南卡羅來納州大白天發生了一起街頭槍擊事件. 受害者是美國知名律師亞歷克斯·梅道(Alex Murdaugh),子彈僅差毫釐就射中他的腦門. 據報道,在9月4日上午,亞歷克斯正在路邊替車子換 ...