機器學習是一種自動擬合數據模型的技術,透過用資料訓練模型來實現 "學習"。機器學習是最常見的人工智慧形式之一;在2017年德勤對250名 "有認知 "的經理人的調查中,他們的組織已經在追求人工智慧,58%的受訪公司在其業務中採用了機器學習。它是一種廣泛的技術,是許多人工智慧方法的核心,而且有許多版本。對公司內部和外部資料的探索--特別是這些外部資料--使得他們採用機器學習來理解這一切既可行又必要。
一、什麼是機器學習?
機器學習的一個更復雜的形式是神經網路--這項技術自20世紀60年代以來一直可用,並被用於分類應用,如確定信貸交易是否是欺詐性的。它以輸入、輸出和將輸入與輸出聯絡起來的變數或 "特徵 "的權重來看待問題。它被比喻為神經元處理訊號的方式,但對大腦的比喻並不強烈。
最複雜的機器學習形式涉及深度學習,或具有許多層次的特徵或變數的神經網路模型來預測結果。這類模型中可能有成千上萬的特徵,這是由今天的計算機架構的快速處理所促成的。與早期的統計分析形式不同,深度學習模型中的每個特徵對於人類觀察者來說通常沒有什麼意義。因此,這些模型很難或無法解釋。在德勤的調查中,34%的人正在使用深度學習技術。
13 使用反向傳播的深度學習是人工智慧技術,它促成了該領域的許多最新進展,從在圍棋比賽中擊敗人類專家到對網際網路上的影象進行分類。多倫多大學和谷歌的傑弗裡-辛頓經常被稱為深度學習之父,部分原因是他在反向傳播方面的早期工作。
二、機器學習採用了一百多種可能的演算法,其中大多數都有點深奧。
它們的範圍從梯度提升(一種建立模型的方法,解決以前模型的錯誤,從而提高預測或分類能力)到隨機森林(模型是決策樹模型的集合)。越來越多的軟體工具(包括DataRobot、SAS和谷歌的AutoML)允許自動構建機器學習模型,嘗試許多不同的演算法,看看哪種演算法最成功。 一旦找到預測或分類訓練資料的最佳模型,它就被部署到預測或分類新的資料--有時被稱為評分過程。
除了使用的演算法,機器學習的另一個關鍵維度是模型的學習方式。監督學習模型(到目前為止是商業中最常用的型別)從一組有標記結果的訓練資料中學習。例如,一個試圖預測銀行欺詐行為的機器學習模型需要在一個系統上進行訓練,其中欺詐行為在某些情況下已被明確證實。這並不容易做到,因為實際欺詐的頻率可能只有十萬分之一--有時被稱為心理不平衡。
三、監督學習與傳統的分析方法如迴歸分析非常相似,它被部署在一個評分模型中。
在迴歸分析中,目標是建立一個模型,使用一組已知值的輸入變數來預測一個已知的結果,這些變數可能與該結果相關。一旦建立了模型,就可以用相同輸入變數的已知值來預測一個未知的結果。例如,我們可以開發一個迴歸模型來預測在病人的年齡、體力活動水平、熱量消耗和體重指數的情況下,感染糖尿病的可能性。我們在已經知道是否患上糖尿病的病人身上建立模型--通常使用所有可用的資料來建立迴歸模型。一旦我們找到了一個好的預測性迴歸模型,我們就可以在一組新的資料中使用它來預測一個未知的結果--在輸入變數的一定水平下,病人患糖尿病的可能性。這後一種活動(在迴歸分析和機器學習中)被稱為評分。
這種迴歸過程與有監督的機器學習相同,出現了以下幾種特殊情況:
- 在機器學習中,用於開發(訓練)模型的資料被稱為訓練資料,可能是明確為訓練目的而舉行的資料子集。
- 在機器學習中,訓練模型經常使用另一個數據子集來驗證,而這個子集的預測結果是已知的。
- 在迴歸中,可能並不希望使用一個模型來預測未知的結果,而在機器學習中則假定如此。
- 在機器學習中可以使用許多不同的演算法型別,而不僅僅是簡單的迴歸分析。
無監督的模型,通常更難開發,在沒有標記的資料中檢測模式,而且結果不為人知。第三種變化,即強化學習,是指機器學習系統有一個確定的目標,每一次朝向目標的行動都會產生某種形式的獎勵。它在玩遊戲時非常有用,但也需要大量的資料--在許多情況下,資料太多,該方法無法使用。15 必須指出的是,有監督的機器學習模式通常不會持續學習;它們從一組訓練資料中學習,然後繼續使用同一模型,除非採用新的訓練資料來教新的模型。
機器學習模型是基於統計學的,它們應該與傳統的分析方法進行比較,以確定其增量價值。它們往往比基於人類假設和迴歸分析的傳統 "手工 "分析模型更準確,但更復雜,也更難解釋。 自動化的機器學習模型可以更快速地建立,並且可以比傳統的統計分析描述更詳細的資料集。考慮到必要的資料量,深度學習模型在影象和語音識別等任務方面非常出色--遠遠好於這些任務的早期自動化方法,並在某些領域接近或超過人類能力。