人工智慧本質上是一場數字遊戲。10年前,深度神經網路開始超越傳統演算法時,表明我們已經有足夠的算力去創造人工智慧。
今天的神經網路對資料的渴望超乎想象,訓練他們,需要仔細調整特徵中數百萬,甚至數十億引數的值,要想達到理想的程度並不容易。訓練可能需要幾天、幾周甚至幾個月的時間。
不過,這一點可能很快就會發生改變。
加拿大圭爾夫大學的Boris Knyazev和他的同事,設計並訓練了一個“超網路”,它可以加快神經網路的訓練過程。給定一個為某個任務而設計的,完全沒有經過訓練的深度神經網路,超網路可以在幾分之一秒內,預測新網路的引數,理論上新的深度神經網路完全不需要經過訓練。
由於超網路學習了深度神經網路設計中極其複雜的模式,也被業內人士稱為“用於開發人工智慧的人工智慧。”
目前,超網路在某些環境下表現極佳,但準確率上,它仍然有很大的最佳化空間。
在CIFAR-10影象資料集上,超網路(GHN-2)在分散式架構上的平均準確率為66.7%,接近使用2500次SGD迭代訓練的網路所達到的69.2%的平坤準確率。對於分散式架構,GHN-2表現出人意料的好,達到約60%的準確率。
但是,在ImageNet上表現則比較糟糕,這是一個比較大的影象資料集,GHN-2的準確率只有27.2%。儘管如此,這與使用5000步SGD訓練的相同網路的25.6%的平均準確率要高一些。當然,如果繼續使用SGD,付出更大的成本可以獲得95%的準確率。不過,GHN-2在不到一秒的時間內,便能做出預測,比SGD要快10000倍。
“超網路”並非憑空設計,它的靈感來自圖超網路。
目前,訓練和最佳化深度神經網路的最好方法是隨機梯度下降法。但這種方法只有在有網路需要最佳化時才有效。如果是構建最初的神經網路,一般是由輸入到輸入多層人工神經元組成,只能依賴工程師的直覺和經驗。
為了解決這個問題,2018年,Ren、Chris Zhang、Raquel Urtasun三名科學家設計了圖超網路(GHN)。它可以在給定一組候選架構的情況下,找到解決某些任務的最佳深度神經網路架構。
超網路便是基於GHN最佳化而來,創造者Knyazev將超網路命名為“GHN-2”。不過因為GHN並沒有開源,Knyazev團隊還是從頭開始編寫自己的軟體,並沒有抄襲GHN的原始碼。
Knyazev團隊取得了一些成功,但他覺得這一方式可能會遭到機器學習社群的反對,因為機器學習從業者更喜歡手工設計算法,而不是基於神秘的深度網路。