編輯 | 蘿蔔皮
RNA結合蛋白(RBPs)是一組與RNA調節和代謝相關的蛋白質,在介導RNA的成熟、轉運、定位和翻譯中起重要作用。然而,一個 RBP 可能有多個目標 RNA,其表達缺陷會導致多種疾病,從而威脅人們的健康。
當前,已經開發出全基因組 RNA 結合事件檢測方法來預測 RBP。然而,現有的計算方法通常存在一些侷限性,例如高維、資料稀疏和模型效能低。
深度卷積神經網路在解決高維稀疏資料方面具有優勢。為了進一步提高深度卷積神經網路的效能,吉林大學人工智慧學院的研究人員,提出了進化深度卷積神經網路(EDCNN),透過將進化最佳化與梯度下降協同來增強深度傳統神經網路來識別蛋白質-RNA的相互作用。
特別是,EDCNN 將進化演算法和不同的梯度下降模型結合在一個互補的演算法中,其中梯度下降和進化步驟可以交替最佳化 RNA 結合事件搜尋。為了驗證 EDCNN 的效能,在兩個大規模 CLIP-seq 資料集上進行了實驗,結果表明 EDCNN 提供了優於其他最先進方法的效能。此外,研究人員還進行了時間複雜度分析、引數分析和模體分析,以從多個角度證明了該演算法的有效性。
該研究以「EDCNN: identification of genome-wide RNA-binding proteins using evolutionary deep convolutional neural network」為題,於 2021 年 10 月 25 日釋出在《Bioinformatics》。
在這項研究中,研究人員提出了 EDCNN 演算法,該演算法將梯度下降方法和進化演算法結合在一個框架中,以最佳化區域性和全域性 CNN 的超引數;該演算法可以捕獲區域性和全域性資訊。應用各種梯度下降方法最佳化超引數,並使用進化演算法以種群方式提高適應度。
EDCNN 的整體框架。
此外,重組和變異操作用於生成後代種群並發現更好的解決方案。事實上,為了增加種群的多樣性,研究人員在梯度下降步驟中使用了不同的最佳化器。SGD、Adamax、Adam、RMSprop、Adadelta 和 Adagrad 在最佳化器池中的比例不同,使得所提出的模型具有特定的特徵。在源自 CLIP-seq 的兩個大規模資料集上進行了多次實驗,結果表明,所提出的 EDCNN 提供了優於其他比較演算法的優越效能,並且在識別 RNA-蛋白質結合位點方面具有很強的穩健性。
EDCNN 與其他計算方法(包括 Pre-SVM、RNAcommender、RCK、iDeepE、iCircRBP-DHN、PrismNet)在 AUC 的 47 個基準資料集上的效能比較。
此外,研究人員還研究了所有 RBP-24 和 RBP-47 的執行時間估計。本研究中的數值計算依賴於具有 12GB 記憶體的單個 NVIDIA GeForce RTX 2080 Ti GPU,整個深度網路在所有 RBP-21 和 RBP-47 資料集上的執行時間分別為 8.11 和 8.37 小時。
該演算法已經開源,可供研究人員下載使用。
演算法連結:https://github.com/yaweiwang1232/EDCNN
軟體與支援資料:https://figshare.com/articles/software/EDCNN/16803217
論文連結:https://academic.oup.com/bioinformatics/advance-article-abstract/doi/10.1093/bioinformatics/btab739/6409850?redirectedFrom=fulltext