sponsored links

晶片資料分析

基因晶片(Gene chip)(又稱DNA晶片、生物晶片)最初是80年代中期提出的。它是由大量DNA或寡核苷酸探針密集排列所形成的探針陣列,其工作的基本原理是透過鹼基互補配對檢測生物資訊。即透過與一組已知序列的核酸探針雜交進行核酸序列測定的方法,在一塊基片表面固定了序列已知的靶核苷酸的探針。當溶液中帶有熒游標記的核酸序列TATGCAATCTAG,與基因晶片上對應位置的核酸探針產生互補匹配時,透過確定熒光強度最強的探針位置,檢測到一組序列完全互補的探針序列。據此可重組出靶核酸的序列。

晶片資料分析

目前已有許多資料庫,包括NCBI的GEO資料庫(https://www.ncbi.nlm.nih.gov/geo/),ArrayExpress資料庫(https://www.ebi.ac.uk/arrayexpress/),和TCGA資料庫(https://cancergenome.nih.gov/)等等,記錄和儲存著大量晶片相關的資料,其中GEO資料庫是目前最大最全的資料庫,可供科研人員查詢和下載相關資料.

晶片資料分析

下面和大家分享一下基因晶片資料的預處理方法。

1)分析前需要對資料進行背景訊號處理:背景處理即過濾晶片雜交訊號中屬於非特異性的背景噪音部分。一般以影象處理軟體對晶片劃格後,每個雜交點周圍區域各畫素吸光度的平均值作為背景,但此法存在晶片不同區域背景扣減不均勻的缺點。也可利用晶片最低訊號強度的點(代表非特異性的樣本與探針結合值)或綜合整個晶片非雜交點背景所得的平均吸光值做為背景。

背景處理之後,我們可以將晶片資料放入一個矩陣中:

晶片資料分析

其中,各字母的意義如下:

N:條件數;

G:基因數目(一般情況下,G>>N);

行向量mi=(mi1,mi2,…,miN)表示基因i在N個條件下的表達水平(這裡指絕對錶達水平,亦即熒光強度值);

列向量mj=(m1j,m2j,…,mGj)表示在第j個條件下各基因的表達水平(即一張晶片的資料);

元素mij表示第基因i在第j個條件下(絕對)基因表達資料。m可以是R(紅色,Cy5,代表樣品組)。也可以是G(綠色,Cy3,代表對照組)。

晶片資料分析

2)晶片資料清理:經過背景校正後的晶片資料中可能會產生負值,還有一些單個異常大(或小)的峰(谷)訊號(隨機噪聲)。對於負值和噪聲訊號,通常的處理方法就是將其去除,常見資料經驗型捨棄方法有:A.標準值或奇異值捨棄法;B.變異係數法;前景值<200;前景值-平均數/前景值-中位數<80%等等。然而,資料的缺失對後續的統計分析(尤其是層式聚類和主成分分析)有致命的影響。Affymetrix公司的晶片分析系統會直接將負值修正為一個固定值。

缺失值得處理方法:對資料的刪除,通常是刪去所在的列向量或行向量。一個比較常用的做法是,事先定義個閾值M。若行(列)向量中的缺失資料量達到閾值M,則刪去該向量。若未達到M,有兩種方法處理,一是以0或者用基因表達譜中的平均值或中值代替,另一個是分析基因表達譜的模式,從中得到相鄰資料點之間的關係,據此利用相鄰資料點估算得到缺失值(類似於插值)。填補缺失值(k臨近法):利用與待補缺基因距離最近的k個臨近基因的表達值來預測待填補基因的表達值。

晶片資料分析

3)提取晶片資料的表達值:由於晶片資料的小樣本和大變數的特點,導致資料分佈呈偏態、標準差大。對數轉換能使上調、下調的基因連續分佈在0的周圍,更加符合正態分佈,同時對數轉換使熒光訊號強度的標準差減少,利於進一步的資料分析。

4)晶片資料的歸一化:經過背景處理和資料清洗處理後的修正值反映了基因表達的水平。然而在晶片試驗中,各個晶片的絕對光密度值是不一樣的,在比較各個試驗結果之前必需將其歸一化(normalization,也稱作標準化)。資料的歸一化目的是調整由於基因晶片技術引起的誤差,不是調整生物RNA 樣本的差異。在同一塊晶片上雜交的、由不同熒光分子標記的兩個樣品間的資料,也需歸一化。常用的方法是平均數、中位數標準化(mean or median normalization):將各組實驗的資料的log ratio中位數或平均數調整在同一水平。中位數標準化:將每個晶片上的數值減去各自晶片上log Ratio值的中位數,使得所有晶片的log Ratio值中位數就變成了0,從而不同晶片間log Raito具有可比性。

晶片資料分析

5) 差異基因表達分析: 經過預處理,探針水平資料轉變為基因表達資料。為了便於應用一些統計和數學術語,基因表達資料仍採用矩陣形式。

A.晶片資料的差異分析主要包括三種方法:

1. 倍數分析方法:倍數變換fold change,單純的case與control組表達值相比較,對沒有重複實驗樣本的晶片資料,或者雙通道資料採用這種方法。

2. 引數法分析(t檢驗):當t超過根據可信度選擇的標準時, 比較的兩樣本被認為存在著差異。但小樣本基因晶片實驗會導致不可信的變異估計,此時採用調節性T檢驗。

3. 非引數分析:由於微陣列資料存在“噪聲”干擾而且不滿足正態分佈假設,用t檢驗有風險。非引數檢驗並不要求資料滿足特殊分佈的假設,所以可使用非引數方法對變數進行篩選。如經驗貝葉斯法、晶片顯著性分析SAM法。

B. 晶片資料的差異分析的常用軟體包括:

1. Limma:它是一個功能比較全的包,既含有cDNA晶片的RAW data輸入、前處理(歸一化)功能,同時也有差異化基因分析的“線性”演算法(limma: Linear Models for Microarray Data),特別是對於“多因素實驗(multifactor designed experiment)”。limma包的可擴充套件性非常強,單通道(one channel)或者雙通道(tow channel)資料都可以分析差異基因,甚至也包括了定量PCR和RNA-seq。

2. DESeq2和EdgeR包: 都可用於做基因差異表達分析,主要也是用於RNA-Seq資料,同樣也可以處理類似的ChIP-Seq,shRNA以及質譜資料。這兩個都屬於R包,其相同點在於都是對count data資料進行處理,都是基於負二項分佈模型。

3. GFOLD軟體:對於有生物學重複的資料(一般的轉錄組資料都會有生物學重複),我們一般採用一個叫edgeR和DEseq的R包。但如果預先測了一批資料沒有重複的資料進行一個預分析。這時候edgeR依然可以用,不過需要認為指定一個dispersion值,這樣的不同的人就可以有不同的結果,在查閱了很多資料之後呢,大家一致認為沒有重複的轉錄組資料應該用GFOLD軟體。

分類: 遊戲
時間: 2021-12-14

相關文章

集電視、音訊、鏡頭、相機、遊戲、電影於一身的大廠,做手機也香

集電視、音訊、鏡頭、相機、遊戲、電影於一身的大廠,做手機也香
說起最佩服的大廠,根本不是蘋果,而是集電視.音訊.鏡頭.相機.遊戲.電影於一身的索尼,索尼的電視,索尼的音響.耳機.錄音筆,索尼的鏡頭,索尼的相機,索尼的遊戲機,索尼的電影,哪一樣都可以算佼佼者,索粉 ...

魷魚遊戲 (彌留之國的愛麗絲第二季後最期待的真人大逃殺電視劇)

魷魚遊戲 (彌留之國的愛麗絲第二季後最期待的真人大逃殺電視劇)
劇本方面:又一個有錢人給錢讓人玩的賭命遊戲!456人自願參加一場賭命遊戲,贏的人活下去,輸的人死,每死一個人獎金增加一億,最後勝利的人得到所有獎金! 電視劇方面:主角成奇勳賭博欠下幾億外債,母親生病要 ...

國產動漫電影《老鷹抓小雞》熱映 領跑國慶動畫大電影市場

國產動漫電影《老鷹抓小雞》熱映 領跑國慶動畫大電影市場
憑藉熱血勵志的故事.歡樂高燃的情節,10月1日上映的動畫電影<老鷹抓小雞>,首日就成為國慶動畫大電影市場的黑馬.這部脫胎於國民經典遊戲的電影,得到眾多青少年與家長的讚譽,位列假期閤家歡觀影 ...

50部優秀二戰電影推薦

50部優秀二戰電影推薦
1:喬喬的異想世界(2020) 戰爭喜劇片,以小孩的世界觀和荒誕劇情來表現納粹思想的瘋狂. 2:灰獵犬號(2020) 2020年湯姆漢克斯主演的戰爭力作,盟軍艦隊與德國U型潛艇狼群戰術的巔峰對決,全程 ...

PS5、XSX玩家看過來,懂痛點的遊戲電視:雷鳥S545C 65寸全面體驗

PS5、XSX玩家看過來,懂痛點的遊戲電視:雷鳥S545C 65寸全面體驗
大家好,我是太空橘子. 一.前言 如今的電視市場兩級分化嚴重,如果只是當個客廳裝飾品和看個新聞,2000元不到的價格就能買個55寸回家,體驗也差,鋪天蓋地的開關機廣告,顯示效果也只能說湊合,質量呢,也 ...

又一部粵劇電影即將亮相,“二度梅”演繹《南越宮詞》

又一部粵劇電影即將亮相,“二度梅”演繹《南越宮詞》
文/羊城晚報全媒體記者 李麗 又一部粵劇電影即將亮相!近日,影片<南越宮詞>在京舉行專家研討會.該片由馬崇傑執導,著名粵劇表演藝術家歐凱明攜手粵劇新生代代表李嘉宜領銜主演,是又一部用現代電 ...

列文虎克 or 細思極恐?盤點熱門電影、電視劇中那些穿幫鏡頭

列文虎克 or 細思極恐?盤點熱門電影、電視劇中那些穿幫鏡頭
大家好,我是馬港真,一個姓馬的廣東人. "穿幫"這個詞,原來是指鞋幫子破了一個洞,露出了腳丫子. 如今多用來指電影.電視劇在製作過程中產生的一些小錯誤. 而造成穿幫的原因有3個. ...

經典遊戲《拳皇》埋藏在雜誌中的小故事,隱藏的細節被一一扒出

經典遊戲《拳皇》埋藏在雜誌中的小故事,隱藏的細節被一一扒出
你知道當年SNK耗費最多心力打造的<拳皇>哪一個版本呢? 或許很多朋友會說是<拳皇97><拳皇98>,畢竟這兩個版本是最受歡迎的,但並不是.正確的答案是<拳皇 ...

全片沒有一個流量明星,劇情反轉過癮,這部低成本網大真令人意外

全片沒有一個流量明星,劇情反轉過癮,這部低成本網大真令人意外
在最近兩個月當中,比較好看的網大作品屬實有些少: 但是樂楓也是為大家扒拉出了<水怪2:黑木林>.<金山伏魔傳>等: 一些製作還不錯的作品. 網路電影麼,總要不斷地對新出的影片進 ...

劇本殺遊戲如何點亮靈感與創意

劇本殺遊戲如何點亮靈感與創意
澎湃新聞記者 夏奕寧 引人入勝的劇情,"沉浸式"的遊戲體驗,燒腦的推理環節......一種名叫"劇本殺"的社交遊戲,近年來在年輕人群體中悄然走紅. 最近,位於杭 ...

朱一龍新電影破7000萬,但被指缺點明顯,又犯了國產電影的老毛病

朱一龍新電影破7000萬,但被指缺點明顯,又犯了國產電影的老毛病
今年的電影市場和去年相比雖然已經回溫,但事實上很多國產電影都因為市場環境的問題一拖再拖.從已經上線的電影中不難發現,今年的國產電影質量明顯下降,有幾部成本不高的電影和網大比起來,都略顯寒酸. 本以為今 ...

“獅鷲”到底是什麼生物,為何在遊戲中總是被當成坐騎?

“獅鷲”到底是什麼生物,為何在遊戲中總是被當成坐騎?
作為魔幻題材出場率較高的生物,"獅鷲"不僅在熒幕上留下了雄壯英姿,遊戲中也時常見到他們的身影. 相信第一次看到"獅鷲"時,很多玩家都會覺得奇怪,獅子的身體搭配上 ...

《在下英臺》梁祝+花木蘭新式混搭,校園小甜劇變玄幻片

《在下英臺》梁祝+花木蘭新式混搭,校園小甜劇變玄幻片
在座各位應該都聽說過樑山伯與祝英臺的故事,最終他們化蝶的結局也十分悽美動人,今天講的國漫<在下英臺>就是由梁祝故事衍生,在八月八號騰訊影片動漫年度發表會上首次公佈預告的古風校園玄幻風格漫. ...

通關上百遍仍不膩味?單機遊戲也會致癮?其實另有真相

通關上百遍仍不膩味?單機遊戲也會致癮?其實另有真相
理論上,這世間的任何一件事物都可以讓人上癮."癮"是"由於神經中樞經常接受某種外界刺激而形成的習慣性和依賴性".從早期的傳奇.魔獸類RPG客戶端網遊,到如今的m ...

風來之國賣61塊真虧了!玩家沉迷內建小遊戲,連主線都棄之不顧

風來之國賣61塊真虧了!玩家沉迷內建小遊戲,連主線都棄之不顧
沉寂了整個上半年的遊戲界,終於在9月份爆發了一波遊戲浪潮.從月初萬代南夢宮重磅推出的<破曉傳說>,到月末動視暴雪重開"地獄之門"放出的<暗黑破壞神2:重製版> ...

推薦10款耐玩的Steam遊戲,有玩家遊戲時長可達300個日夜

推薦10款耐玩的Steam遊戲,有玩家遊戲時長可達300個日夜
在現在這個遊戲市場化成熟的今天,越來越多的遊戲作品開始具備了耐玩的品性,畢竟玩家也希望一款遊戲可以玩很久,這樣就不用再花費時間和精力去挑選其他遊戲了.下面我來給大家推薦10款耐玩的Steam遊戲,這些 ...

1500預算給孩子買手機,能上網課,打遊戲,不卡頓,關鍵是要好看

1500預算給孩子買手機,能上網課,打遊戲,不卡頓,關鍵是要好看
現在的中學生,每個人都要用手機,很多家長在給孩子買手機的時候就犯難了,該買什麼樣的手機呢? 其實給孩子買手機的時候儘量挑選價效比高的,不要買貴的. 孩子在學校不能用智慧手機,就回到家裡才能玩一會.無非 ...

30個好萊塢電影中被人忽視的驚人細節!這就是差距啊…

30個好萊塢電影中被人忽視的驚人細節!這就是差距啊…
話說,看電影已經是當代人不可或缺的一種娛樂方式,每個人看過的影片都不少,然而大部分都是走馬觀花- 在reddit網站上有一個"電影細節"的版塊,匯聚了許多列文虎克般的資深影迷!他們 ...

我看完吳京、易烊千璽主演的電影《長津湖》的感慨

我看完吳京、易烊千璽主演的電影《長津湖》的感慨
非常推薦一看,9月30日的晚上我第一時間就去買了電影票看了,座標深圳,這裡的電影票還算比較便宜,49塊錢3張,我總共買了7張和朋友一起去看的. 其實這個電影從我看到預告片的時候,我就已經很期待了,畢竟 ...

遊戲行業深度解析及投資重點
行業特性: 遊戲行業的商業模式以娛樂消遣為基礎,以客戶訴求為目的的盈利方式,簡單說就是流量價值變現.天然優點是娛樂方便,虛擬空間更容易排解個人情緒,具有一定的弱癮性. 遊戲的行業空間,永續性極強.老一 ...