什麼是機器學習?
機器學習是人工智慧(AI)和計算機科學的一個分支,它側重於使用資料和演算法來模仿人類的學習方式,逐步提高其準確性。
IBM 在機器學習方面有著悠久的歷史
亞瑟·塞繆爾 (Arthur Samuel) 因其圍繞跳棋遊戲的研究 創造了術語“機器學習”而受到讚譽。
自稱為跳棋大師的羅伯特·尼利 (Robert Nealey) 於 1962 年在 IBM 7094 計算機上玩該遊戲,他輸給了計算機。
與今天所能做到的相比,這一壯舉幾乎顯得微不足道,但它被認為是人工智慧領域的一個重要里程碑。
在接下來的幾十年裡,圍繞儲存和處理能力的技術發展將使我們今天知道和喜愛的一些創新產品成為可能,例如 Netflix 的推薦引擎或自動駕駛汽車。
機器學習是不斷髮展的資料科學領域的重要組成部分。
透過使用統計方法,訓練演算法進行分類或預測,揭示資料探勘專案中的關鍵見解。
這些洞察隨後會推動應用程式和業務中的決策制定,理想情況下會影響關鍵增長指標。
隨著大資料的不斷擴大和增長,市場對資料科學家的需求將增加,要求他們協助識別最相關的業務問題,然後用資料來回答這些問題。
機器學習 vs 深度學習 vs 神經網路
由於深度學習和機器學習往往可以互換使用,因此值得注意的是兩者之間的細微差別。
機器學習、深度學習和神經網路都是人工智慧的子領域。
然而,深度學習實際上是機器學習的一個子領域,而神經網路是深度學習的一個子領域。
深度學習和機器學習的不同之處在於每種演算法的學習方式。
深度學習使過程中的大部分特徵提取部分自動化,消除了一些所需的人工干預並允許使用更大的資料集。
您可以將深度學習視為“可擴充套件的機器學習”,正如 Lex Fridman 在本次 MIT 講座 中指出的那樣。
經典的或“非深度”的機器學習更依賴於人工干預來學習。
人類專家確定一組特徵以瞭解資料輸入之間的差異,通常需要更多結構化資料來學習。
“深度”機器學習可以利用標記資料集(也稱為監督學習)為其演算法提供資訊,但它不一定需要標記資料集。
它可以以原始形式(例如文字、影象)攝取非結構化資料,並且可以自動確定將不同類別資料彼此區分開來的一組特徵。
與機器學習不同,它不需要人工干預來處理資料,讓我們能夠以更有趣的方式擴充套件機器學習。
深度學習和神經網路主要歸功於加速計算機視覺、自然語言處理和語音識別等領域的進步。
神經網路或人工神經網路 (ANN) 由節點層組成,其中包含一個輸入層、一個或多個隱藏層和一個輸出層。
每個節點或人工神經元連線到另一個節點並具有相關的權重和閾值。
如果任何單個節點的輸出高於指定的閾值,則啟用該節點,將資料傳送到網路的下一層。
否則,不會將任何資料傳遞到網路的下一層。
深度學習中的“深度”只是指神經網路中層的深度。
由三層以上(包括輸入和輸出)組成的神經網路可以被視為深度學習演算法或深度神經網路。
只有兩層或三層的神經網路只是一個基本的神經網路。
機器學習的工作原理
加州大學伯克利分校將機器學習演算法的學習系統分為三個主要部分。
決策過程:通常,機器學習演算法用於進行預測或分類。
根據一些可以標記或未標記的輸入資料,您的演算法將生成關於資料模式的估計。
誤差函式:誤差函式用於評估模型的預測。
如果有已知的例子,誤差函式可以進行比較,以評估模型的準確性。
模型最佳化過程:如果模型可以更好地擬合訓練集中的資料點,則調整權重以減少已知示例與模型估計之間的差異。
該演算法將重複此評估和最佳化過程,自動更新權重,直到達到準確度閾值。
機器學習方法
機器學習分類器分為三個主要類別。
1 監督機器學習
監督學習,也稱為監督機器學習,其定義是透過使用標記資料集來訓練演算法來準確地對資料進行分類或預測結果。
當輸入資料輸入模型時,它會調整其權重,直到模型得到適當擬合。
這是作為交叉驗證過程的一部分發生的,以確保模型避免過擬合或欠擬合。
監督式學習可幫助組織大規模解決各種現實問題,例如將垃圾郵件分類到與收件箱不同的資料夾中。
監督學習中使用的一些方法包括神經網路、樸素貝葉斯、線性迴歸、邏輯迴歸、隨機森林、支援向量機 (SVM) 等。
2 無監督機器學習
無監督學習,也稱為無監督機器學習,使用機器學習演算法對未標記的資料集進行分析和聚類。
這些演算法無需人工干預即可發現隱藏的模式或資料分組。
其發現資訊異同的能力使其成為探索性資料分析、交叉銷售策略、客戶細分、影象和模式識別的理想解決方案。
它還用於透過降維過程減少模型中的特徵數量;主成分分析 (PCA) 和奇異值分解 (SVD) 是兩種常用的方法。
無監督學習中使用的其他演算法包括神經網路、k 均值聚類、機率聚類方法等。
3 半監督學習
半監督學習在監督學習和無監督學習之間提供了一個愉快的媒介。
在訓練期間,它使用較小的標記資料集來指導從較大的未標記資料集中進行分類和特徵提取。
半監督學習可以解決沒有足夠標記資料(或無法負擔足夠標記資料)來訓練監督學習演算法的問題。
強化機器學習
強化機器學習是一種類似於監督學習的行為機器學習模型,但該演算法不是使用樣本資料進行訓練的。
該模型透過反覆試驗不斷學習。
一系列成功結果將得到加強,以針對給定問題制定最佳建議或政策。
IBM Watson系統贏得了Jeopardy!
2011 年的挑戰就是一個很好的例子。
該系統使用強化學習來決定是否嘗試回答(或問題)、在棋盤上選擇哪個方格以及下注多少——尤其是在每日雙打時。
真實世界的機器學習用例
以下是您每天可能會遇到的一些機器學習示例:
語音識別:也稱為自動語音識別 (ASR)、計算機語音識別或語音轉文字,是一種使用自然語言處理 (NLP) 將人類語音處理為書面格式的能力。
許多移動裝置將語音識別整合到他們的系統中以進行語音搜尋(例如 Siri)或提供更多關於簡訊的可訪問性。
客戶服務: 線上聊天機器人正在取代客戶旅程中的人工代理。
他們回答圍繞主題的常見問題 (FAQ),例如運輸,或提供個性化建議、交叉銷售產品或為使用者建議尺寸,改變我們對跨網站和社交媒體平臺客戶互動的看法。
示例包括電子商務網站上帶有虛擬代理的訊息機器人、訊息應用程式(例如 Slack 和 Facebook Messenger)以及通常由虛擬助手和語音助手完成的任務。
計算機視覺:這項人工智慧技術使計算機和系統能夠從數字影象、影片和其他視覺輸入中獲取有意義的資訊,並根據這些輸入採取行動。
這種提供建議的能力將其與影象識別任務區分開來。
在卷積神經網路的支援下,計算機視覺在社交媒體中的照片標記、醫療保健中的放射成像以及汽車行業中的自動駕駛汽車中都有應用。
推薦引擎:利用過去的消費行為資料,人工智慧演算法可以幫助發現數據趨勢,可用於制定更有效的交叉銷售策略。
這用於在線上零售商的結賬過程中向客戶提供相關的附加建議。
自動化股票交易:旨在最佳化股票投資組合,人工智慧驅動的高頻交易平臺每天進行數千甚至數百萬次交易,無需人工干預。
機器學習的挑戰
隨著機器學習技術的進步,它無疑讓我們的生活變得更輕鬆。然而,在企業內部實施機器學習也引發了許多圍繞人工智慧技術的道德問題。其中一些包括:
1 技術奇點
雖然這個話題引起了很多公眾的關注,但許多研究人員並不關心人工智慧在不久或不久的將來超越人類智慧的想法。
這也被稱為超級智慧,Nick Bostrum 將其定義為“任何在幾乎所有領域(包括科學創造力、一般智慧和社交技能)都遠遠超過最優秀的人類大腦的智力。”
儘管強人工智慧和超級智慧在社會中並不迫在眉睫,但當我們考慮使用自主系統(如自動駕駛汽車)時,它的想法提出了一些有趣的問題。
認為無人駕駛汽車永遠不會發生車禍是不現實的,但在這種情況下,誰來負責和承擔責任?
我們是否還應該追求自動駕駛汽車,或者我們是否限制了這項技術的整合,只創造提高駕駛員安全性的半自動駕駛汽車?
陪審團對此仍然沒有定論,但隨著新的、創新的人工智慧技術的發展,這些倫理辯論正在發生。
2 人工智慧對工作的影響
雖然很多公眾對人工智慧的看法都集中在失業問題上,但這種擔憂可能應該重新定義。
隨著每一項顛覆性的新技術,我們看到市場對特定工作角色的需求發生了變化。
例如,當我們審視汽車行業時,許多製造商(如通用汽車)正在轉向專注於電動汽車生產,以配合綠色倡議。
能源行業不會消失,但能源來源正在從燃油經濟性轉向電動經濟性。
應該以類似的方式看待人工智慧,人工智慧將把工作需求轉移到其他領域。
隨著資料每天的增長和變化,需要有人幫助管理這些系統。
仍然需要資源來解決最有可能受到工作需求變化影響的行業中更復雜的問題,例如客戶服務。
人工智慧的重要方面及其對就業市場的影響將幫助個人過渡到這些新的市場需求領域。
3 隱私
隱私往往是在資料隱私、資料保護和資料安全的背景下討論的,這些擔憂使政策制定者近年來在這方面取得了更大的進步。
例如,2016 年制定了 GDPR 立法以保護歐盟和歐洲經濟區人們的個人資料,讓個人對他們的資料有更多的控制權。
在美國,個別州正在制定政策,例如加州消費者隱私法案 (CCPA),該法案要求企業告知消費者其資料的收集情況。
最近的這項立法迫使公司重新考慮他們如何儲存和使用個人身份資料 (PII)。
因此,在企業尋求消除任何監控漏洞和機會時,安全領域的投資已成為越來越重要的優先事項,
4 偏見和歧視
許多智慧系統中的偏見和歧視例項引發了許多有關使用人工智慧的倫理問題。
當訓練資料本身容易產生偏見時,我們如何防止偏見和歧視?
雖然公司通常對他們的自動化工作有善意的意圖,但路透社強調了將人工智慧納入招聘實踐的一些不可預見的後果。
在努力自動化和簡化流程的過程中,亞馬遜無意中按性別偏向了潛在的求職者,以擔任開放的技術角色,他們最終不得不放棄該專案。
當這些事件浮出水面時,哈佛商業評論 圍繞在招聘實踐中使用人工智慧提出了其他尖銳的問題,例如在評估職位候選人時應該能夠使用哪些資料。
偏見和歧視也不僅限於人力資源職能;
它可以在從面部識別軟體到社交媒體演算法的許多應用程式中找到。
隨著企業越來越意識到人工智慧的風險,他們也變得更加活躍,圍繞人工智慧道德和價值觀的討論。
例如,去年 IBM 執行長 Arvind Krishna 分享說,IBM 已經下架了其通用的 IBM 面部識別和分析產品,強調“IBM 堅決反對並且不會容忍任何技術的使用,包括其他供應商提供的面部識別技術,用於大規模監視、種族定性、侵犯基本人權和自由,或任何不符合我們的價值觀和信任和透明度原則的目的。”
5 問責制
由於沒有重要的立法來規範 AI 實踐,因此沒有真正的執法機制來確保實踐符合道德的 AI。
目前促使公司遵守這些準則的動機是不道德的人工智慧系統對底線的負面影響。
為了填補這一空白,倫理框架已經成為倫理學家和研究人員合作的一部分,以管理社會中人工智慧模型的構建和分佈。
然而,目前,這些僅起到指導作用,研究表明,分散式責任和缺乏對潛在後果的遠見相結合並不一定有助於防止對社會造成傷害