我們在研究基因對於某一個疾病預後是否有影響的時候。最直接的就是單純的做這個基因對所有患者的預後分析。如果預後有意義,就說明這個基因影響疾病的預後。如果沒有意義就說明這個基因不重要的嘛?當然也不是的。疾病的發展是一個多基因多因素相互影響的結果。如果這個基因對於所有患者預後沒意義的話,有可能這個基因在某些藥物治療下可能就影響預後了,或者說這個基因和另外一個基因存在相互作用關係。在另外一個基因啟用的情況話,這個基因就影響預後了。因此,我們在發現一個基因對於預後沒有意義的時候,也不能說這個基因沒意義了,可以繼續嘗試做一些進一步互動性的分析。
在腫瘤分析當中,單純分析一個基因的預後分析的話,很多網站都可以來實現,例如GEPIA, UALCAN這些經典的資料庫都可以做。但是如果要進行這樣亞組的分析的話,這些網站就不行了。所以進行就介紹可以進行互動行的預後分析資料庫:siGCD([http://sigcd.idrug.net.cn/Home])。這個資料庫可以分析基因、細胞以及藥物之間相互性的預後分析
基本分析演算法
資料庫主要是基於RNA-seq的資料來進行後續的預後分析的。
對於基因的分析,就是直接使用目標基因的表達量進行分析即可。而對於細胞浸潤以及藥物相關的分析,則需要對RNA-seq的資料進行轉換一下。
在細胞分析當中,我們需要輸入和這個細胞相關的陽性基因和陰性基因。基於這些輸入基因的表達量來進行來轉換成細胞的表達量。
這裡資料庫使用的轉化公式是:(陽性基因的表達量和-陰性基因表達量的和)/陽性基因和陰性基因的總個數。
而對於藥物的評分,主要是透過輸入藥物的靶標基因來進行轉換。具體轉換公式則是:藥物靶標基因的表達量和/藥物靶標基因個數。
背景資料集介紹
siGCD資料庫內建的是TCGA資料庫當中的RNA-seq的資料。如果是想要分析TCGA的資料的話,可以直接是有資料庫來進行分析。同時資料庫還提供了自定義資料上傳的功能。因此如果有自己的測序資料的話,就可以自己上傳資料來進行額外的分析了。具體上傳怎麼樣的資料集。資料庫也給了具體的介紹([http://sigcd.idrug.net.cn/CustomData])。
資料庫操作
資料輸入
在資料庫的操作方面,我們只需要基於自己的目的選擇不同的分析模組即可。這裡我們就是用cell-gene模組進行演示。
在細胞名稱方面,資料庫裡面有一些預先載入的免疫相關的相關基因。如果是做免疫方面的細胞的話,可以在裡面搜尋一下看看有沒有。
如果沒有自己想要的,則可以輸入自己定義的基因。
另外,我們還需要輸入想要分析的基因。這裡可以輸入多個想要分析的基因。這裡我們輸入一個基因來進行分析。
最後就是選擇分析的資料集,這裡可以選擇使用TCGA的資料還是自己的資料。同時對於臨床的常見風險因子(性別、年齡以及TNM分期)是否要納入到分析。
在選擇完之後,我們點選Submit即可。
結果展示
結果展示部分,首先展示的是目標細胞和分析的基因相關性的分析。這裡使用了perason相關。
結果首先透過表格展示了目標細胞和每個基因相關分析的結果,同時點選具體的基因可以在右側展示具體的散點圖。
除了相關分析之後,還展示了在細胞和基因協同性以及不同亞組的預後分析。
在這裡有一個Z得分。Z得分為正代表目標細胞和基因對患者生存結局具有協同相互作用,這意味著目標細胞的高值將增加另一個基因的危害。另一方面,Z得分為負的變數對對患者的生存結局具有拮抗作用。例如,例子分析的結果就是負的。代表細胞和IL15存在拮抗作用。
再往下就可以分析目標細胞和目標基因之間的亞組預後分析了。這裡提供了細胞基於基因的亞組預後,基因基於細胞的亞組預後,以及兩者的聯合預後。
由於前兩者都差不多,我們這裡就說一下基因基於細胞的預後。之前在介紹預後分析的時候,我們提到過如果使用KM方法進行預後的話,首先需要把基因的連續性表達資料分成二分類資料(具體可以看這裡:KM分析)。在這個方面,資料庫是透過中位值這個最經典的區分方法來進行劃分的。
在結果展示部分,資料庫首先展示了,基因總體的預後情況。
同時基於細胞表達量的中位值分成了高低兩組,然後分別看高低兩組之間,基因的預後是否有差異。
上面的例子就是一個很經典的,總體預後沒有差異。但是基於某一個基因集的亞組當中預後就有差異的例子。
除了亞組觀察預後。還可以把兩個因素聯合起來觀察預後是否有差異。
總的來說
以上就是這個資料庫的基本使用了。基本上,如果要研究一個基因的預後。在預後沒有意義的情況話,也可以進行額外的挖掘。萬一真的能發現這個基在某一個分組當中特別有意義,比如免疫治療。那說不準真的可以當某一個特定分組的marker呢。