基因晶片(Gene chip)(又稱DNA晶片、生物晶片)最初是80年代中期提出的。它是由大量DNA或寡核苷酸探針密集排列所形成的探針陣列,其工作的基本原理是透過鹼基互補配對檢測生物資訊。即透過與一組已知序列的核酸探針雜交進行核酸序列測定的方法,在一塊基片表面固定了序列已知的靶核苷酸的探針。當溶液中帶有熒游標記的核酸序列TATGCAATCTAG,與基因晶片上對應位置的核酸探針產生互補匹配時,透過確定熒光強度最強的探針位置,檢測到一組序列完全互補的探針序列。據此可重組出靶核酸的序列。
目前已有許多資料庫,包括NCBI的GEO資料庫(https://www.ncbi.nlm.nih.gov/geo/),ArrayExpress資料庫(https://www.ebi.ac.uk/arrayexpress/),和TCGA資料庫(https://cancergenome.nih.gov/)等等,記錄和儲存著大量晶片相關的資料,其中GEO資料庫是目前最大最全的資料庫,可供科研人員查詢和下載相關資料.
下面和大家分享一下基因晶片資料的預處理方法。
1)分析前需要對資料進行背景訊號處理:背景處理即過濾晶片雜交訊號中屬於非特異性的背景噪音部分。一般以影象處理軟體對晶片劃格後,每個雜交點周圍區域各畫素吸光度的平均值作為背景,但此法存在晶片不同區域背景扣減不均勻的缺點。也可利用晶片最低訊號強度的點(代表非特異性的樣本與探針結合值)或綜合整個晶片非雜交點背景所得的平均吸光值做為背景。
背景處理之後,我們可以將晶片資料放入一個矩陣中:
其中,各字母的意義如下:
N:條件數;
G:基因數目(一般情況下,G>>N);
行向量mi=(mi1,mi2,…,miN)表示基因i在N個條件下的表達水平(這裡指絕對錶達水平,亦即熒光強度值);
列向量mj=(m1j,m2j,…,mGj)表示在第j個條件下各基因的表達水平(即一張晶片的資料);
元素mij表示第基因i在第j個條件下(絕對)基因表達資料。m可以是R(紅色,Cy5,代表樣品組)。也可以是G(綠色,Cy3,代表對照組)。
2)晶片資料清理:經過背景校正後的晶片資料中可能會產生負值,還有一些單個異常大(或小)的峰(谷)訊號(隨機噪聲)。對於負值和噪聲訊號,通常的處理方法就是將其去除,常見資料經驗型捨棄方法有:A.標準值或奇異值捨棄法;B.變異係數法;前景值<200;前景值-平均數/前景值-中位數<80%等等。然而,資料的缺失對後續的統計分析(尤其是層式聚類和主成分分析)有致命的影響。Affymetrix公司的晶片分析系統會直接將負值修正為一個固定值。
缺失值得處理方法:對資料的刪除,通常是刪去所在的列向量或行向量。一個比較常用的做法是,事先定義個閾值M。若行(列)向量中的缺失資料量達到閾值M,則刪去該向量。若未達到M,有兩種方法處理,一是以0或者用基因表達譜中的平均值或中值代替,另一個是分析基因表達譜的模式,從中得到相鄰資料點之間的關係,據此利用相鄰資料點估算得到缺失值(類似於插值)。填補缺失值(k臨近法):利用與待補缺基因距離最近的k個臨近基因的表達值來預測待填補基因的表達值。
3)提取晶片資料的表達值:由於晶片資料的小樣本和大變數的特點,導致資料分佈呈偏態、標準差大。對數轉換能使上調、下調的基因連續分佈在0的周圍,更加符合正態分佈,同時對數轉換使熒光訊號強度的標準差減少,利於進一步的資料分析。
4)晶片資料的歸一化:經過背景處理和資料清洗處理後的修正值反映了基因表達的水平。然而在晶片試驗中,各個晶片的絕對光密度值是不一樣的,在比較各個試驗結果之前必需將其歸一化(normalization,也稱作標準化)。資料的歸一化目的是調整由於基因晶片技術引起的誤差,不是調整生物RNA 樣本的差異。在同一塊晶片上雜交的、由不同熒光分子標記的兩個樣品間的資料,也需歸一化。常用的方法是平均數、中位數標準化(mean or median normalization):將各組實驗的資料的log ratio中位數或平均數調整在同一水平。中位數標準化:將每個晶片上的數值減去各自晶片上log Ratio值的中位數,使得所有晶片的log Ratio值中位數就變成了0,從而不同晶片間log Raito具有可比性。
5) 差異基因表達分析: 經過預處理,探針水平資料轉變為基因表達資料。為了便於應用一些統計和數學術語,基因表達資料仍採用矩陣形式。
A.晶片資料的差異分析主要包括三種方法:
1. 倍數分析方法:倍數變換fold change,單純的case與control組表達值相比較,對沒有重複實驗樣本的晶片資料,或者雙通道資料採用這種方法。
2. 引數法分析(t檢驗):當t超過根據可信度選擇的標準時, 比較的兩樣本被認為存在著差異。但小樣本基因晶片實驗會導致不可信的變異估計,此時採用調節性T檢驗。
3. 非引數分析:由於微陣列資料存在“噪聲”干擾而且不滿足正態分佈假設,用t檢驗有風險。非引數檢驗並不要求資料滿足特殊分佈的假設,所以可使用非引數方法對變數進行篩選。如經驗貝葉斯法、晶片顯著性分析SAM法。
B. 晶片資料的差異分析的常用軟體包括:
1. Limma:它是一個功能比較全的包,既含有cDNA晶片的RAW data輸入、前處理(歸一化)功能,同時也有差異化基因分析的“線性”演算法(limma: Linear Models for Microarray Data),特別是對於“多因素實驗(multifactor designed experiment)”。limma包的可擴充套件性非常強,單通道(one channel)或者雙通道(tow channel)資料都可以分析差異基因,甚至也包括了定量PCR和RNA-seq。
2. DESeq2和EdgeR包: 都可用於做基因差異表達分析,主要也是用於RNA-Seq資料,同樣也可以處理類似的ChIP-Seq,shRNA以及質譜資料。這兩個都屬於R包,其相同點在於都是對count data資料進行處理,都是基於負二項分佈模型。
3. GFOLD軟體:對於有生物學重複的資料(一般的轉錄組資料都會有生物學重複),我們一般採用一個叫edgeR和DEseq的R包。但如果預先測了一批資料沒有重複的資料進行一個預分析。這時候edgeR依然可以用,不過需要認為指定一個dispersion值,這樣的不同的人就可以有不同的結果,在查閱了很多資料之後呢,大家一致認為沒有重複的轉錄組資料應該用GFOLD軟體。