自從科學,技術和人工智慧的最初立場出發,跟隨布萊斯·帕斯卡(Blaise Pascal)和馮·萊布尼茲(Von Leibniz)的科學家們在思考這種機器具有與人類一樣多的智力。儒勒
·凡爾納(Jules Verne),弗蘭克·鮑姆(Frank Baum,綠野仙蹤),瑪麗·雪莉(Frankkenstein),喬治·盧卡斯(George Lucas,星球大戰)等著名作家夢ed以求的是類似於人類行為的人造生物,甚至在不同的環境中淹沒了人性化的技能。
Pascal的機器執行減法和求和– 1642年
機器學習是AI的重要途徑之一,在研究或行業中AI是非常熱門的話題。公司,大學投入大量資源來提高知識水平。該領域的最新進展為不同任務提供了非常可觀的結果,與人類的表現相當(交通標誌的 98.98%-高於人類)。
在這裡,我想分享一個簡單的機器學習時間表,並簽署一些尚未完成的里程碑。另外,您應該在文字中任何引數的開頭新增“據我所知”。
希伯(Hebb)於1949年根據神經心理學學習方法提出了邁向流行性ML的第一步。這就是所謂的赫本學習理論。透過簡單的解釋,它可以找到遞迴神經網路(RNN)節點之間的相關性。它可以記住網路上的任何共同點,並在以後充當記憶體。正式地,論點指出:
讓我們假設,反射性活動(或“痕跡”)的持續或重複趨向於誘導持久的細胞變化,從而增加其穩定性。……當 細胞 A 的 軸突 足夠接近以激發細胞 B 並反覆或持續吸收時在射擊它的過程中,一個或兩個細胞都發生了某些生長過程或代謝變化,從而隨著射擊B的其中一個細胞, A 的效率 得以提高。[1]
亞瑟·塞繆爾(Arthur Samuel)
1952年,IBM的Arthur Samuel開發了一個播放Checkers的程式。該程式能夠觀察位置並學習隱式模型,從而為後一種情況提供更好的動作。塞繆爾(Samuel)使用該程式玩了很多遊戲,並觀察到該程式在一段時間內可以玩得更好。
塞繆爾(Samuel)在該程式中混淆了一般的要求,使機器無法超越書面程式碼,無法學習人類的模式。他創造了“機器學習”,他將其定義為:
無需明確程式設計即可賦予計算機功能的研究領域。
羅森布拉特
1957年,羅森布拉特的 感知器是神經科學背景下再次提出的第二種模型,它與當今的ML模型更加相似。當時,這是一個非常令人興奮的發現,並且實際上比Hebbian的想法更適用。羅森布拉特(Rosenblatt)透過以下幾行介紹了Perceptron:
感知器旨在說明一般智慧系統的一些基本屬性,而不會過於沉迷於特定生物通常具有的特殊且通常未知的條件。[2]
3年後,Widrow [4] 雕刻了Delta學習規則,然後將其用作Perceptron訓練的實際步驟。也稱為最小二乘 問題。這兩個想法的結合創造了一個很好的線性分類器。然而,Persky的興奮與Minsky [3]在1969年有關。他提出了著名的XOR問題,以及在這種線性不可分割的資料分佈中感知器無法實現的問題。這是明斯基對NN社群的解決。此後,直到1980年代,神經網路研究才處於休眠狀態。
來自瓦普尼克和科爾特斯[10]
直到1981年Werbos [6]用NN特定的反向傳播(BP)演算法 提出了多層感知器(MLP)的直覺之後,才進行了很多工作,儘管 1970年Linnainmaa [5]曾提出過BP的想法 。以“自動區分的反向模式”的名稱命名。BP仍然是當今NN體系結構的關鍵要素。有了這些新想法,NN的研究再次加速。1985年至1986年,神經網路研究人員先後透過實際的BP訓練提出了MLP 的思想(Rumelhart,Hinton,Williams [7] – Hetch,Nielsen [8])
摘自赫奇和尼爾森[8]
在另一個方面,JR Quinlan [9]在1986 年提出了一種眾所周知的ML演算法,我們稱之為決策樹,更具體地講是ID3演算法。這是另一個主流機器學習的亮點。而且,ID3還作為一種軟體釋出,它具有簡單的規則和清晰的推論,可以發現更多現實生活中的用例,這與仍然是黑盒子的NN模型相反。
在ID3之後,社群已經探索了許多不同的替代方案或改進方法(例如ID4,迴歸樹,CART…),但它仍然是ML中的活躍主題之一。
來自昆蘭[9]
機器學習最重要的突破之一是支援向量機(網路)(SVM),該向量機由Vapnik和Cortes [10] 於1995年提出,具有很強的理論地位和實證結果。那時是NN或SVM倡導者將ML社群分成兩個人群的時候。但是,在將核心支援版本的SVM 移至2000年代左右後,NN端這兩個社群之間的競爭並不容易(我無法找到有關該主題的第一篇論文),SVM充分利用了NN模型之前所完成的許多工。此外,SVM能夠利用凸最佳化,廣義裕度理論和針對NN模型的核的所有深厚知識。因此,它可能會發現來自不同學科的巨大推動力,從而在理論和實踐上取得了迅速的進步。
來自瓦普尼克和科爾特斯[10]
1991年Hochreiter的論文[40]和 Hochreiter等人的工作使NN遭受了另一次破壞。等[11] 在2001年,顯示了當我們應用BP學習時,NN單元飽和後的梯度損失。簡單地說,由於飽和單元,在一定數量的時期之後訓練NN單元是多餘的,因此NN非常傾向於在短時期內過度擬合。
不久之前,Freund和Schapire 在1997年提出了另一種固體ML模型,該模型規定了稱為Adaboost的弱分類器的增強合奏 。這項工作在當時還授予了戈德爾獎。Adaboost透過更加重視硬例項來訓練易於訓練的弱分類器集。該模型仍然是許多不同任務(例如人臉識別和檢測)的基礎。這也是PAC(大概近似正確)學習理論的實現。通常,將所謂的弱分類器選擇為簡單的決策樹樁(單個決策樹節點)。他們介紹了Adaboost為;
我們研究的模型可以解釋為將經過充分研究的線上預測模型廣泛擴充套件到抽象的決策理論環境……[11]
Breiman [12]在2001年探索的另一個整合模型將多個決策樹集合在一起,其中每個決策樹由例項的隨機子集管理,並且每個節點都從特徵的隨機子集中選擇。由於其性質,它被稱為隨機森林(RF)。RF還具有抗過度擬合的理論和經驗證明。甚至AdaBoost都顯示出資料過擬合和離群值例項的弱點,RF 對於這些警告而言是更健壯的模型(有關RF的更多詳細資訊,請參閱我的舊文章。)RF在許多不同的任務(例如Kaggle比賽)中也顯示出成功。
隨機森林是樹預測器的組合,因此每棵樹都取決於獨立取樣的隨機向量的值,並且對森林中的所有樹具有相同的分佈。隨著森林中樹木數量的增加,森林的一般化誤差收斂到極限[12]。
隨著我們今天越來越近,一種稱為深度學習的NN新時代已經商業化。該短語僅表示具有許多較寬連續層的NN模型。NN的第三次興起始於2005年 ,這是近來的專家Hinton,LeCun,Bengio,Andrew Ng和其他有價值的資深研究人員從過去到現在的許多發現共同開始的 。我列舉了一些重要的標題(我想,我將專門為深度學習撰寫完整的帖子);
- GPU程式設計
- 卷積神經網路[18] [20] [40]反捲積網路[21]
- 最佳化演算法隨機梯度下降[19] [22]BFGS和L-BFGS [23]共軛梯度下降[24]反向傳播[40] [19]
- 整流器單元
- 稀疏性[15] [16]
- 輟學網[26]麥克斯圖網[25]
- 無監督的NN模型[14]深度信仰網路[13]堆疊式自動編碼器[16] [39]去噪NN模型[17]
結合所有這些想法和未列出的想法,NN模型能夠在非常不同的任務(例如物件識別,語音識別,NLP等)上超越現有技術。但是,應該指出的是,這絕對不意味著,這是其他ML流的結尾。即使深度學習成功案例迅速發展,也有許多批評家直接針對培訓成本和調整這些模型的外生引數。此外,由於其簡單性,SVM仍在更普遍地使用。(表示但可能引起巨大爭議
)
在結束之前,我需要介紹另一個相對年輕的ML趨勢。隨著WWW和社交媒體的發展,一個新的名詞 BigData 出現了,並極大地影響了ML研究。由於BigData帶來的大量問題,許多強大的ML演算法對於合理的系統毫無用處(當然,對於大型的Tech公司而言,這是沒有用的)。因此,研究人員提出了一套新的簡單模型,稱為Bandit演算法[27-38](正式稱為 Online Learning) ,使學習變得更容易且更適合大規模問題。
我想總結一下這本ML史的嬰兒表。如果您發現錯誤(應該
),不足或未被引用,請立即以各種方式警告我。