青山 生信人
身邊人在議論,為什麼有的生信分析加了溼實驗還是不被期刊認可,有的純生信如今仍然可以在CNS佔據一席之地?首先科學研究的意義就是解決科學問題,所以,提出的科學問題的水準,決定了研究的最終歸宿,生信分析同理。本篇文獻作者就具備發現和提出科研問題的能力,小編相信,該作者未來也會挖掘更多具有臨床意義的生信文章。
下面讓我們一起來看看這篇文獻,文章名:“A panel of platelet-associated circulating long non-coding RNAs as potential biomarkers for colorectal cancer“,10月投稿,12月發表在《Genomics》,影響因子5+。全文分析的資料來源,分別是利用高通量公開資料庫測序資料,以及作者醫院收治的結直腸癌患者的低通量PCR所檢測的血液樣本的血小板來源的lncRNA的表達資料。
作者提出的問題:
目前,液體活檢的生物標誌物主要包括迴圈腫瘤細胞(CTC)、迴圈腫瘤DNA(ctDNA)、細胞外囊泡(EVs,主要是外泌體)、迴圈無細胞RNA(cfRNA)、miRNA(和cfRNA共同構成了迴圈腫瘤RNA,ctRNA)。ctDNA主要被應用於指導晚期腫瘤患者選擇藥物,更多被應用於非小細胞肺癌和結直腸癌的用藥伴隨診斷。迴圈miRNA及lnRNA作為腫瘤標誌物的綜述[1, 2]之前也有發表。結直腸癌早期診斷的檢查主要是結腸鏡,目前來看,無論鏡檢的系統如何升級換代,仍然是有創操作,存在一系列的風險。作者結合液體活檢的背景,提出利用病人血液樣本中血小板來源的lncRNA,作為診斷結直腸癌患者的生物標誌物,接下來,我們一起看看作者都做了哪些分析。
結果1:Identification of dysregulated lncRNAs in tumor-educated platelets
作者下載GEO資料庫中研究結直腸癌患者迴圈血小板的lncRNA譜,資料集GSE68086共納入了54例血液樣本, 27 結直腸癌患者以及27例正常人。首先第一步是差異分析,常見的生信文章在差異分析這一步通常會和研究熱點的基因集取交集,比如免疫、凋亡、自噬和鐵死亡等等,目的是為病人群體區分亞群,更好的進行靶向治療。本篇測序樣本為血液,目的是鑑定出具有診斷疾病能力的基因,並不需要引入靶向治療的背景(tips:時刻謹記生信分析是一件工具,而工具的好壞,並不是判斷分析結果的唯一標準。隨處可得的樹枝,在楊過手裡也一樣可以和利刃交鋒!)。
主成分分析首先得出實驗組和對照組的血液樣本中,血小板來源的lncRNA表達存在差異。繪製火山圖並計算實驗組與對照之間的差異基因,取得109個顯著高表達的lncRNA,19個顯著低表達的lncRNA。借MA圖的演算法,計算差異基因的表達倍數,最後分別取上調和下調差異基因中的4個進行後續的研究。(LNCAROD, SNHG20, LINC00534, TSPOAP-AS1, GAS5, DANCR, CCDC18-AS1, and LINC00926) 圖1
LncRNA expression profiles in platelets of CRC patients and healthy controls.
結果2:個人病人群體臨床表徵,Characteristics of study populations
得到8個關鍵的血小板來源的lncRNA,作者接下來選擇直接構建診斷模型,臨床樣本驗證。也是臨床研究的常見設計流程。這裡可以看見,驗證生信結果的方式並不是也做一次高通量測序,只要和演技目的嵌合,低通量的PCR同樣適用。作者將醫院收治的45例結直腸癌患者及45例正常人的血液樣本納入訓練集,將105例結直腸癌患者及105例正常人血液樣本納入驗證集。表格1 展示患者及正常對照組人群的基線資料,及腫瘤學特徵。透過統計學檢驗,結直腸癌組與正常對照組之間,年齡、性別、吸菸史均無顯著差異,具有可比性。訓練集和驗證集中結直腸癌患者的基線資料及腫瘤學也正也不顯著統計學差異。表1
Characteristics of the study population.
結果3:Modeling and evaluation of the diagnostic circulating lncRNAs
作者對納入研究的驗證集的血液樣本,進行定量PCR檢測。結果提示,結直腸癌患者血清中4種lncrna (LNCAROD、SNHG20、LINC00534和TSPOAP-AS1)顯著上調。在作者自己的臨床樣本檢測中,發現基於資料庫資料篩選的迴圈lncRNA中有4個是同樣高表達的。作者繼續探索這4個lncRNA區分正常和腫瘤患者的診斷效能,構建基於lncRNA的診斷模型。LNCAROD、SNHG20、LINC00534和TSPOAP-AS1組成模型,公式:Logit (P) = 3.84 + 0.77 LNCAROD +0.94 SNHG20 + 0.28 TSPOAP-AS1 + 0.15 LINC00534。作者比較了4種lncRNA單一作為分類標準和包含4種lncRNA的模型的診斷效能,ROC曲線顯示,與單個lncRNA相比,模型在識別結直腸癌患者方面具有更高的AUC值(0.90)。LNCAROD、SNHG20、LINC00534和TSPOAP-AS1對應的AUC分別為0.85、0.85、0.82和0.76。圖2
Expression levels and diagnostic values of 4 lncRNAs in serum samples of CRC patients and healthy controls in the training set.
結果4:Validation of the 4-lncRNAs-based model
進一步評價基於4個lncRNA構建的結直腸癌患者診斷模型的效能。在作者的驗證集中,對每個資訊lncRNA的進一步評估表明,CRC患者血清中LNCAROD、SNHG20、LINC00534和TSPOAP-AS1的上調與之前的訓練集中的結果一致。結果表明該模型具有較高的效能(AUC = 0.78)。LNCAROD、SNHG20、LINC00534和TSPOAP- AS1的AUCs分別為0.74 、0.73、0.73和0.63。此處,除了驗證生信分析結果,還進一步推廣了基於生信分析得到的模型臨床作用,這點體現了驗證層次,拔高了臨床意義。圖3
Diagnostic performance of 4-lncRNAs-based model in serum samples of CRC patients and healthy controls in the validation set.
結果5:Correlation between lncRNAs and clinicopathological characteristics
除了診斷效能,該模型最終的目的是為了早期診斷結直腸癌。為了探索候選迴圈lncRNA與癌症特徵之間的關聯,作者將來自訓練集和驗證集的結直腸癌患者組合併到一個驗證集,並進行後續的相關性分析。結果顯示,這些迴圈lncRNA的表達水平與性別、腫瘤大小、淋巴結轉移、遠處轉移和分化無顯著相關性 (P>0.05)。高表達的迴圈LNCAROD與分期(III/IV期) 存在相關 (P>0.05)。此外,TSPOAP-AS1在結腸癌迴圈中為高表達水平(P>0.05)。到此,作者基於簡單的生信分析,得到了具有診斷結直腸癌的血小板來源lncRNA,並且與腫瘤的分期具備相關性,臨床價值不可謂不重要。表2
Association of LNCAROD, SNHG20, LINC00534 and TSPOAP-AS1 expression levels with clinicopathological features.
總結:腫瘤學的診斷以影像,活檢為金標準。但是診斷時效存在一定的滯後性,往往有影像學表現的時候,患者的分期已經進展。結直腸癌的早期診斷仍然是體檢,結腸鏡為主,而結直腸鏡也是有創操作,存在麻醉、機械損傷的風險。本文作者鑑定的lncRNA綜合診斷效能高,單一的lncRNA在晚期和總體結直腸癌都有高表達的表現。具有顯著的臨床價值。如果能鑑定出與術後治療相關的迴圈lncRNA,結合CEA等腫瘤標誌物,將會大大提高對患者預後預測的能力。
回顧全文,作者生信分析部分只包括了差異分析,繪製了火山圖,熱圖,後文都是紮紮實實的臨床研究思路。不知道讀者平時讀生信文章有沒有這樣的感覺,開篇都是差異分析,一點閱讀的興趣就沒有,但是本篇的差異分析卻十分的吸引球,讓讀者十分想了解作者得到差異分析後又做了哪些研究,讀完一個結果就會感嘆一次作者所分析的內容之重要。
生信分析的本質是透過轉錄組學,來研究疾病發生、發展、預後、治療的工具。本文作者的使用的是生信分析中最基礎的方法,解決的卻是重要的臨床問題。所以,小編也引以為戒,不要被熱點所迷惑,多立足於你所研究的疾病的全方位考慮,能提出怎麼樣的科學問題,哪些可以透過生信分析這個工具解決,修煉的是發現臨床問題的能力,而不是修煉使用工具的能力。