sponsored links

一文讀懂基本的核方法和徑向基函式

一文讀懂基本的核方法和徑向基函式

來源:Deephub Imba
本文約2000字,建議閱讀8分鐘 核方法就是透過將資料的輸入空間對映到高維特徵空間,在高維特徵空間中可以訓練簡單的線性模型,從而得到高效、低偏差、低方差的模型。

偏差-方差困境是機器學習方法面臨的主要問題。如果模型過於簡單則模型將難以找到輸入和輸出之間的適當關係(欠擬合)。如果一個模型太複雜,它在訓練中會表現得更好,但在看不見的資料上的效能會有更大的差異(或過擬合),而且複雜的模型往往需要更昂貴的計算資源。對於機器學習來說理想的方法是,能夠找到一個簡單的模型,它訓練起來既很快又可以找到輸入和輸出之間的複雜關係。核方法就是透過將資料的輸入空間對映到高維特徵空間,在高維特徵空間中可以訓練簡單的線性模型,從而得到高效、低偏差、低方差的模型。

這句話就是本文的寫作目的。在看完本文後,希望你能很好地理解這句話的含義以及它為什麼重要。

核方法

機器學習世界中有許多的核方法。支援向量機(svm)就是其中之一,在20世紀後期甚至優於當時的神經網路。但是現在因為資料的數量有了突飛猛進的發展,所以核方法並不佔優勢。因為核方法最適合於中小型資料集,但是在結果的可解釋性很重要的問題上核方法還是有優勢的。

核方法使用核(或基函式)將輸入資料對映到不同的空間。透過這種對映,簡單的模型可以在新的特徵空間而不是輸入空間上訓練,從而提高模型的效能。

以上是對核函式的介紹,在本篇文章中將重點介紹徑向基函式,這是一個非常簡單但常見的核。

線性迴歸和 RBF(徑向基函式)

在迴歸問題中,我們試圖估計從 X 推斷 Y 的最佳函式。如果 X 和 Y 之間存在非線性關係,則不能簡單地在此資料上擬合線性模型。然而,核方法的目標是在這些非線性關係上使用線性模型並保證結果是正確的。

核心方法透過將資料轉換為更高維度並在此維度上擬合線性模型來實現這一點。透過這種方法我們在原始輸入空間中有效地擬合了一個高階模型。

線性迴歸

我們先看一下線性迴歸,然後我們就可以瞭解如何使用核方法對線性模型生成非線性對映。

一文讀懂基本的核方法和徑向基函式

最優線性迴歸是最小化我們模型的預測和目標輸出y之間的平方距離的迴歸器。將這個誤差最小化就能得到最優解決方案。

一文讀懂基本的核方法和徑向基函式

我們可以將最小二乘誤差與我們模型的權重進行微分,從而找到產生最小誤差的權重向量,結果就是偽逆解。為了正確理解線性代數公式,我們必須熟悉每個變數的維度數:

一文讀懂基本的核方法和徑向基函式

輸入資料 X 是 (Nxd) 維,其中 N 是資料點的數量,d 是特徵的數量。因此,逆計算將是一個 (dxd) 矩陣,並且所得的權重矩陣是 (dx1)。我們的權重向量與輸入資料中的特徵具有相同的維度。這是肯定的,因為當我們從 X 推斷 Y 時,我們採用權重和輸入資料之間的點積,因此輸入必須具有與我們的權重相同的維度。

高維空間中的線性迴歸

核方法透過使用核或一組 M 個基函式將資料矩陣 X 對映到新的設計矩陣 U(design matrix)。新的設計矩陣具有更高的維度(NxM,其中 M ≥ d)。

一文讀懂基本的核方法和徑向基函式

我們可以透過採用 M 個基函式 (ϕ) 來構造一個設計矩陣 U,每個基函式都由它們自己的均值和標準差引數化。上面等式中的平均值的維數為 (dx1)。因此,對於輸入空間中的每個資料點,我們應用 M 個基函式將輸入維度 (Nxd) 轉換為新的設計矩陣 (NxM)。

RBF 使用高斯基函式。每個基函式代表輸入空間中的高斯分佈。每個資料點都在所有高斯分佈中進行評估。結果是輸入向量從 d 維到 M 維的對映。

要引數化這些高斯分佈的均值和標準差,可以使用k-means聚類得到引數化基函式的均值和標準差。

現在我們有了我們的設計矩陣 U,並且我們已經將輸入資料對映到了一個高維空間,我們可以在這個新的特徵空間中擬合一個線性模型。

一文讀懂基本的核方法和徑向基函式

透過來自特徵空間的估計和我們的目標 y 之間的最小二乘誤差,並根據我們的新權重向量 l 進行微分,我們發現最優解與輸入資料中線性迴歸的最優解相同。

這裡要注意的是我們的權重向量 (l) 現在是一個 Mx1 向量,在原始輸入空間中,權重向量是一個 dx1 向量(記住 M > d)。

合成數據的例子

這是合成的非線性資料。有 10,000 個數據點,我們的 Y 座標是一維的。這意味著我的資料矩陣 X 的維度為 (10,000x1)。我們可以嘗試透過使用上面看到的偽逆解計算最佳權重來擬合該資料的線性模型。正如您在上面看到的那樣,它的表現並不好。

下面我們透過在高維特徵空間中擬合相同的線性模型,更好地近似資料中的真實關係。

首先,我將 200 個基函式應用於我的每個資料點。我在我的輸入空間中採用 200 個高斯分佈,並評估我所有基本函式的每個資料點。我的新設計矩陣現在是 (10,000x200) 維的。然後我使用相同的偽逆解來獲得這個新特徵空間中的最佳權重。

RBF模型估計的關係是非線性的,並且與資料吻合得很好。但是這個新模型仍然是一個線性迴歸器!因為我們將它擬合到新特徵空間中,所以我們間接地在原始輸入空間中擬合了一個複雜的非線性模型。

總結

核方法使用核(或一組基函式)將低維輸入空間對映到高維特徵空間。並在新的特徵空間中訓練一個線性模型(ax +b型別的線性模型)。我們實際上是在原始輸入空間中訓練一個高階模型(例如ax²+bx +c型別)。透過這樣做,既保留了簡單模型的所有優勢(如訓練速度、具有解析解、方差更低),也獲得了更復雜模型的優勢(更好的對映、更低的偏差)。這就是核心方法如此強大的原因!

作者:Diego Unzueta

分類: 財經
時間: 2021-10-29

相關文章

去年券商分析師3364人,年產8.59萬份研報!中信、長江、招商公募佣金市佔率居前三,2家券商在其他客戶上攬金超8億

去年券商分析師3364人,年產8.59萬份研報!中信、長江、招商公募佣金市佔率居前三,2家券商在其他客戶上攬金超8億
每經記者:陳晨 每經編輯:吳永久 今年6月,中國證券業協會(下稱:中證協)組織開展對證券公司2020年釋出證券研究報告業務經營情況進行統計,並於近日向券商下發了相關統計報告. 統計顯示,截至2020年 ...

彙集近40家制表品牌,“鐘錶與奇蹟”2022年將回歸日內瓦

彙集近40家制表品牌,“鐘錶與奇蹟”2022年將回歸日內瓦
近日,紅星新聞記者從瑞士高階製表基金會官方獲悉:2022年日內瓦"鐘錶與奇蹟"高階鐘錶展(以下簡稱:2022年"鐘錶與奇蹟"高階鐘錶展)將回歸日內瓦展覽中心(P ...

河南投資集團承接河南省257億專項債,向40家中小銀行注資
記者 張曉迪 河南省化解地方中小銀行風險邁出重要一步.10月8日,河南投資集團有限公司(以下簡稱:"河南投資")公告稱,河南省委.省政府已確定其承接河南省257億元專項債券,用以為 ...

中俄印都有蘇30,到底哪家蘇30最強?美媒對三家戰機進行排名

中俄印都有蘇30,到底哪家蘇30最強?美媒對三家戰機進行排名
說起來蘇30,這款戰鬥機大家並不感到陌生,屬於俄羅斯側衛戰機蘇27的強力接替者,而這款戰機也是具備了強大的戰鬥能力.蘇27在冷戰時期就被認為是世界最強戰鬥機之一,而側衛的出名,也讓蘇30問世之初就有了 ...

40家中國鋰礦(鹽湖鋰輝石)鋰鹽(碳酸鋰氫氧化鋰)上市公司名單
車研諮詢釋出的(十四五期間)<2021-2025年中國鋰礦與鋰鹽市場發展 趨勢與投資前景預測報告>對全球以及中國鋰礦市場.碳酸鋰+氫氧化鋰市場發展進行了詳細分析. 其中,相關上市公司名單如 ...

國泰君安證券:看多四季度電動車行情,迎接銷量旺季
投資建議:我們認為四季度中國和歐洲月度銷量有望超預期,美國補貼政策逐步推進落地有望形成催化.推薦鋰電材料漲價品種&磷酸鐵鋰產業鏈兩條主線.隔膜:恩捷股份.星源材質:負極:璞泰來:電解液:天賜材 ...

十大券商看後市|A股新動力正在醞釀,看好金秋十月行情
澎湃新聞記者 田忠方 A股國慶長假休市結束.假期中,海外市場呈現出顯著的波動,特別是港股市場下行明顯.進入四季度,市場行情將如何演繹呢? 澎湃新聞蒐集了10家券商的觀點,大部分券商認為,雖然供需矛盾隨 ...

基金持股前100名的個股,持倉比例排名一覽表
左劃可檢視更多······ 名稱 現價 漲幅 基金持股比例 基金持股數 基金持股市值 所屬行業 芒果超媒 42.28 1.15% 40.29% 58家 34.02億 通訊服務 長春高新 243.17 ...

券商五大業務迎來利好!中秋節後或將起飛?
都說券商業績好,利潤高,還是牛市旗手,但為什麼買券商的朋友,經常一套好幾年? 趁著中秋假期,來分析一下券商的五大業務,讓你對券商知根知底! 投研不易,喜歡乾貨分析的朋友,請點點關注! 一.經紀業務 上 ...

十大券商看後市|A股仍處“糾結期”,下一步大機率震盪向上
澎湃新聞記者 田忠方 A股本週進入三季報披露期,市場行情將如何演繹呢? 澎湃新聞蒐集了10家券商的觀點,大部分券商認為,雖然市場仍然處於"糾結期",整體可能處於區間震盪的格局,但無 ...

火線備戰北交所!50萬元投資門檻剛劃定,這些券商已開通線上預開戶功能
記者 | 孫藝真 編輯 | 各大券商積極備戰北交所! 9月17日,<北京證券交易所投資者適當性管理辦法(試行)>(下稱管理辦法)甫一落地,部分券商便聞聲而動,連夜上線北交所開戶功能. 管理 ...

夏志宏:有靠譜的大學排名嗎?

夏志宏:有靠譜的大學排名嗎?
我們該談談大學排名了,好的排名有時可以作為參考,但真正有用的應該是排名背後所收集的資料 | 圖源:pixabay.com 導 讀 近日,我國高校在某世界高校排行榜名次再創新高引發網友熱議,很多人認為這 ...

北交所頭部券商預約成功人數已過萬 潛在開戶數最高近800萬戶
據不完全統計,自9月17日晚明確個人投資者參與北交所股票交易的"准入門檻"(即"20個交易日日均證券資產50萬元+2年交易經驗")以來,截至9月19日18時,已 ...

多家家居企業暫停IPO之路?選擇上市仍是他們心中最優選
10月14日,資本邦瞭解到,近日,多家家居企業暫停IPO之路. 深交所官網顯示,在9月25-30日期間,正在排隊IPO的致歐家居.三問家居.森鷹門窗等幾家企業稽核狀態統一變更為"中止&quo ...

週末疊加多重利好,下週券商飛起
券商洗盤結束,已滿倉證券,下週起飛

早餐⎮恆大集團:要求6名管理人員提前贖回的所有款項必須限期返回
熱點聚焦 1.證監會擴大紅籌企業在境內上市試點範圍,納入新一代資訊科技.新能源.新材料.新能源汽車.綠色環保.航空航天.海洋裝備等高新技術產業和戰略性新興產業的紅籌企業.具有國家重大戰略意義的紅籌企業 ...

風力板塊起飛 鋰電概念熄火

風力板塊起飛 鋰電概念熄火
撰稿:池偉嘉 本週指數衝高回落,兩市強弱交替,滬指回守3600點.創業板率先反彈,市場否極泰來,截止週五收盤,滬指漲0.19%報3613.97點,深成指漲0.71%報14359.36點,創業板指漲2. ...

新能源車的最新判斷

新能源車的最新判斷
資料永遠比故事重要,從資料中看到投資機會,比從故事中獲得更有前瞻性. 8月份,乘用車總體銷量萎靡,新能源車如旭日朝陽. 乘聯會公佈的8月乘用車零售資料顯示,包含轎車.MPV.SUV.微客在內的廣義乘用 ...

國海證券及粵開證券被立案調查 踩雷勝通集團承銷債券41億違約
長江商報訊息●長江商報記者蔡嘉 在監管部門堅決打擊債券市場違法違規行為的背景下,又有兩家券商被立案調查. 日前,國海證券(000750.SZ)和粵開證券(830899.OC)同日公佈,因在勝通集團發行 ...

​週末這些重要訊息或將影響股市(附新股日曆+機構策略)
點藍字關注,不迷路~ 宏觀﹒要聞 劉鶴與美貿易代表戴琪通話 9日上午,中共中央政治局委員.國務院副總理.中美全面經濟對話中方牽頭人劉鶴與美貿易代表戴琪舉行視訊通話.雙方進行了務實.坦誠.建設性的交流, ...