【佳學(xué)基因檢測(cè)】一種利用下一代測(cè)序進(jìn)行差異甲基化基因座的基因檢測(cè)方法
高通量測(cè)序與甲基化基因檢測(cè)導(dǎo)讀
表觀遺傳變化,尤其是 CpG 基因座的 DNA 甲基化,對(duì)癌癥和其他復(fù)雜疾病具有重要意義。隨著下一代測(cè)序(NGS)的發(fā)展,使用病例對(duì)照設(shè)計(jì)生成數(shù)據(jù)以了解全基因組基因座甲基化狀態(tài)的差異是可行的。佳學(xué)基因解碼為此設(shè)計(jì)了適當(dāng)和有效的統(tǒng)計(jì)檢驗(yàn),以解決這一基因檢測(cè)技術(shù)所遇到的困難。首先,與使用微陣列的甲基化實(shí)驗(yàn)不同,其中在特定 CpG 位點(diǎn)對(duì)一個(gè)個(gè)體進(jìn)行甲基化測(cè)量。佳學(xué)基因所采用的甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組有每個(gè)個(gè)體的甲基化等位基因和非甲基化等位基因的計(jì)數(shù)。其次,由于樣品制備的性質(zhì),測(cè)量的甲基化反映了樣品制備中涉及的細(xì)胞混合物的甲基化狀態(tài)。所以,測(cè)量的甲基化水平的潛在分布是未知的,穩(wěn)健的測(cè)試比參數(shù)方法更可取。第三,目前高通量測(cè)序測(cè)量超過 200 萬個(gè) CpG 位點(diǎn)的甲基化。任何統(tǒng)計(jì)測(cè)試都必須具有計(jì)算效率,才能應(yīng)用于 NGS 數(shù)據(jù)。考慮到這些挑戰(zhàn),甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組通過對(duì)甲基化計(jì)數(shù)進(jìn)行建模,提出了基于聚類數(shù)據(jù)分析的差異甲基化測(cè)試。甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組進(jìn)行了模擬以表明它在測(cè)量的甲基化水平的幾個(gè)分布下是穩(wěn)健的。它具有良好的功能并且計(jì)算效率很高。賊后,甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組將該測(cè)試應(yīng)用于甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組關(guān)于慢性淋巴細(xì)胞白血病的高通量測(cè)序數(shù)據(jù)。結(jié)果表明,這是一個(gè)很有前途和實(shí)用的測(cè)試。
高通量測(cè)序與甲基化基因檢測(cè)關(guān)鍵詞:
DNA甲基化,甲基化差異檢測(cè),二代測(cè)序
甲基化測(cè)序基因檢測(cè)科普介紹
近年來,由于基因分型技術(shù)的快速進(jìn)步和人類基因組計(jì)劃的完成,基因檢測(cè)關(guān)聯(lián)研究,尤其是大規(guī)模的全基因組基因檢測(cè)關(guān)聯(lián)研究變得非常流行。通過全基因組關(guān)聯(lián)研究已經(jīng)確定了數(shù)百個(gè)疾病的易感基因座。盡管取得了這一進(jìn)展,并建立具有一定規(guī)模的數(shù)據(jù)庫(kù)。但迄今為止鑒定的遺傳變異僅解釋了大多數(shù)復(fù)雜疾病的一小部分表型變異 。表型變異的另一個(gè)潛在來源是表觀遺傳變化,例如 DNA 甲基化。
DNA甲基化是指在CpG二核苷酸中胞嘧啶的5'端添加一個(gè)甲基。啟動(dòng)子區(qū)域的 DNA 甲基化可以抑制基因的表達(dá)。已經(jīng)表明 DNA 甲基化變化與許多人類疾病有關(guān),尤其是癌癥。CpG二核苷酸的高甲基化是腫瘤抑制基因失活的重要標(biāo)志。相反,正常甲基化基因的低甲基化可能導(dǎo)致癌基因的激活。基因解碼中的人類表觀基因組檢測(cè)是研究全基因組表觀遺傳模式 。
隨著生物技術(shù)的發(fā)展,現(xiàn)在可以通過下一代測(cè)序 (NGS) 對(duì)全基因組 CpG 位點(diǎn)獲得生成甲基化數(shù)據(jù)。在這些基因解碼過程中,DNA 樣本用亞硫酸氫鹽處理,它將未甲基化的胞嘧啶轉(zhuǎn)化為尿嘧啶,并使甲基化的胞嘧啶保持完整。NGS 對(duì)每個(gè)受試者或樣品的每個(gè) CpG 位點(diǎn)處具有胞嘧啶(甲基化)的分子數(shù)和具有尿嘧啶(未甲基化)的分子數(shù)進(jìn)行計(jì)數(shù)。
基于來自高通量測(cè)序基因檢測(cè)的計(jì)數(shù)來測(cè)試組(例如,病例和對(duì)照)之間差異甲基化的一種簡(jiǎn)單方法是對(duì)給定 CpG 位點(diǎn)的組內(nèi)受試者的計(jì)數(shù)求和,從而產(chǎn)生 2 × 2 列聯(lián)表(甲基化/未甲基化 × 病例/對(duì)照)。然后將 Pearson 的獨(dú)立性卡方檢驗(yàn)用于此表。這種方法是有問題的,因?yàn)槊總€(gè)個(gè)體的測(cè)序覆蓋率(測(cè)量的總分子數(shù)量較大)可能不同,導(dǎo)致測(cè)序覆蓋率大的個(gè)體對(duì)測(cè)試統(tǒng)計(jì)數(shù)據(jù)產(chǎn)生不當(dāng)影響。此外,該測(cè)試沒有考慮甲基化水平的受試者間變異性。
另一種方法是首先估計(jì)每個(gè)個(gè)體每個(gè) CpG 位點(diǎn)的甲基化比例 ( β ), β = n methy / ( n methy + n unmethy )。然后可以對(duì)β應(yīng)用t檢驗(yàn)。這種方法消除了先前方法中覆蓋率不均的問題,并且該測(cè)試還考慮了甲基化水平的受試者間變異性。然而,這種方法存在幾個(gè)問題。首先,與甲基化微陣列實(shí)驗(yàn)獲得的數(shù)據(jù)不同,在直接測(cè)量甲基化比例的情況下,甲基化比例是根據(jù)高通量測(cè)序的計(jì)數(shù)數(shù)據(jù)估計(jì)的。測(cè)序覆蓋率的差異將導(dǎo)致β估計(jì)值的正確性不同,測(cè)序覆蓋率越大的受試者估計(jì)β的標(biāo)準(zhǔn)誤差越小。這種異方差性對(duì)于t檢驗(yàn)可能是有問題的。此外,t檢驗(yàn)的正態(tài)性假設(shè)可能不適用于高通量測(cè)序甲基化數(shù)據(jù)。除了測(cè)序覆蓋率的影響外,甲基化比例還可能受文庫(kù)制備、批次效應(yīng)等諸多因素的影響。這些附加因素會(huì)影響真實(shí)β在樣本或受試者上的分布,因此這種分布是未知的。因此,需要一個(gè)穩(wěn)健的t檢驗(yàn)替代方案。使用t檢驗(yàn)分析甲基化比例的另一個(gè)問題是t檢驗(yàn)定義在 -∞ 到 ∞ 之間,而甲基化比例限制在 0 和 1 之間。在實(shí)際數(shù)據(jù)中,甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組觀察到相當(dāng)大比例的樣本和 CpG 位點(diǎn)具有甲基化比例等于 0 或 1。在本文中,甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組提出了一種基于聚類數(shù)據(jù)分析的檢測(cè)差異甲基化 CpG 位點(diǎn)的測(cè)試,方法是直接對(duì)甲基化計(jì)數(shù)進(jìn)行建模。然后甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組進(jìn)行了模擬以表明所提出的測(cè)試在測(cè)量的甲基化水平的幾個(gè)分布下是穩(wěn)健的。
高通量測(cè)序甲基化測(cè)序的基因解碼方法
建立模型
在這里,甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組在病例對(duì)照研究設(shè)計(jì)中對(duì)甲基化計(jì)數(shù)進(jìn)行建模。假設(shè)案例組中有n A個(gè)人,對(duì)照組中有n U個(gè)人。甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組有k個(gè) CpG 位點(diǎn)的 NGS 全基因組甲基化數(shù)據(jù)。設(shè)m Aij是個(gè)體i在 CpG 位點(diǎn)j的甲基化讀數(shù)的計(jì)數(shù),c Aij是個(gè)體i在 CpG 位點(diǎn)j的覆蓋率,β Aij是個(gè)體i在 CpG 位點(diǎn)j的真實(shí)甲基化水平情況下,甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組對(duì)m進(jìn)行建模具有二項(xiàng)分布的Aij
m Aij ~ B ( c Aij , β Aij ), i = 1, ... n A , j = 1, ... k。
(1)
類似地,甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組將m Uij、c Uij和β Uij定義為控件中的對(duì)應(yīng)量,甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組有
m Uij ~ B ( c Uij , β Uij ), i = 1, ..., n U , j = 1, ... k。
(2)
這里的關(guān)鍵是將高通量測(cè)序讀取視為每個(gè)個(gè)體中的集群,問題變成在存在集群數(shù)據(jù)的情況下比較兩個(gè)比例。這些集群是實(shí)驗(yàn)設(shè)計(jì)的自然結(jié)果,也是對(duì)每組內(nèi)每個(gè)受試者測(cè)量的二項(xiàng)式數(shù)據(jù)的性質(zhì)。為此,甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組采用了聚類數(shù)據(jù)分析的方法。這種方法首先計(jì)算設(shè)計(jì)效果,然后用于調(diào)整病例和對(duì)照中的甲基化比例。
模擬研究
在每種情況下,甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組分別使用如上模擬的甲基化比例,根據(jù)方程 (1)和(2)模擬病例和對(duì)照的甲基化分子計(jì)數(shù)。甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組允許覆蓋率c Aij和c Uij通過從賊小為 5 的正態(tài)分布N (30, 13) 中采樣而變化,這是甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組在下面分析的實(shí)際數(shù)據(jù)中使用的賊小讀取次數(shù)。
結(jié)果
甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組在H 0下進(jìn)行了模擬,以研究所提出測(cè)試的 I 類錯(cuò)誤率。如上一節(jié)所述,甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組考慮了甲基化水平分布的三種情況。對(duì)于每種情況,甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組模擬了病例和對(duì)照中相同數(shù)量個(gè)體的甲基化計(jì)數(shù)。甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組將n A = n U設(shè)置為從 10 到 500 的不同數(shù)字,以研究樣本量的影響。在每個(gè)場(chǎng)景中,甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組對(duì)每個(gè)樣本大小進(jìn)行了 100,000 次重復(fù)。表一給出了在場(chǎng)景 (a) 的幾個(gè)α水平上評(píng)估的經(jīng)驗(yàn) I 型錯(cuò)誤率,其中單個(gè)甲基化水平是從 β 分布產(chǎn)生的。相似地,表二給出場(chǎng)景 (b) 的經(jīng)驗(yàn) I 型錯(cuò)誤率,其中單個(gè)甲基化水平是從正態(tài)分布產(chǎn)生的,并且表三給出了場(chǎng)景 (c) 的經(jīng)驗(yàn) I 型錯(cuò)誤率,其中單個(gè)甲基化水平是從混合正態(tài)分布產(chǎn)生的。從這些表中可以看出,隨著樣本量的增加,I 類錯(cuò)誤率接近標(biāo)稱α水平。這適用于所有α水平和所有三種甲基化水平分布。與三種模擬情景相比,當(dāng)甲基化水平服從正態(tài)分布時(shí),I 型錯(cuò)誤的膨脹低于甲基化水平服從 β 或混合正態(tài)分布的情景。當(dāng)甲基化水平遵循情景(c)中的混合物正態(tài)分布時(shí),通貨膨脹賊高。
表一:模擬場(chǎng)景 (a) 的 I 類錯(cuò)誤率
樣本量 |
檢驗(yàn) |
α = 0.05 |
α = 0.01 |
α = 0.001 |
α = 0.0001 |
10 |
甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn) |
0.07747 |
0.02564 |
0.0067 |
0.00217 |
t檢驗(yàn) |
0.09458 |
0.04886 |
0.01629 |
0.00386 |
|
幼稚的 |
0.24474 |
0.13104 |
0.05517 |
0.024 |
|
20 |
甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn) |
0.06425 |
0.01765 |
0.00295 |
0.00069 |
t檢驗(yàn) |
0.07798 |
0.0274 |
0.00923 |
0.00402 |
|
幼稚的 |
0.25003 |
0.13357 |
0.05735 |
0.02437 |
|
50 |
甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn) |
0.0548 |
0.0128 |
0.00172 |
0.00024 |
t檢驗(yàn) |
0.06759 |
0.02646 |
0.0101 |
0.0041 |
|
幼稚的 |
0.25753 |
0.14062 |
0.06116 |
0.02628 |
|
100 |
甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn) |
0.05299 |
0.01132 |
0.00128 |
0.00012 |
t檢驗(yàn) |
0.05941 |
0.01566 |
0.00286 |
0.00064 |
|
幼稚的 |
0.26273 |
0.14285 |
0.06193 |
0.02766 |
|
500 |
甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn) |
0.05096 |
0.01022 |
0.001 |
0.00014 |
t檢驗(yàn) |
0.05704 |
0.01635 |
0.00375 |
0.0011 |
|
幼稚的 |
0.26613 |
0.14419 |
0.06313 |
0.02808 |
表二:模擬場(chǎng)景 (b) 的 I 類錯(cuò)誤率
樣本量 |
檢驗(yàn) |
α = 0.05 |
α = 0.01 |
α = 0.001 |
α = 0.0001 |
10 |
甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn) |
0.07261 |
0.02277 |
0.00529 |
0.00137 |
t-檢驗(yàn) |
0.08721 |
0.01694 |
0.00205 |
0.00034 |
|
幼稚的 |
0.23829 |
0.12507 |
0.05156 |
0.0214 |
|
20 |
甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn) |
0.05969 |
0.01522 |
0.00255 |
0.00045 |
t-檢驗(yàn) |
0.0735 |
0.02209 |
0.00524 |
0.00131 |
|
幼稚的 |
0.24445 |
0.12898 |
0.05399 |
0.02401 |
|
50 |
甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn) |
0.05399 |
0.01177 |
0.00146 |
0.00015 |
t-檢驗(yàn) |
0.06179 |
0.0154 |
0.00244 |
0.00046 |
|
幼稚的 |
0.25143 |
0.13391 |
0.05578 |
0.02429 |
|
100 |
甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn) |
0.05178 |
0.01092 |
0.00119 |
0.00013 |
t-檢驗(yàn) |
0.05719 |
0.01082 |
0.00141 |
0.00022 |
|
幼稚的 |
0.25463 |
0.13623 |
0.05833 |
0.02487 |
|
500 |
甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn) |
0.05043 |
0.01039 |
0.00093 |
0.00011 |
t-檢驗(yàn) |
0.05332 |
0.01199 |
0.00154 |
0.00017 |
|
幼稚的 |
0.25898 |
0.13882 |
0.05957 |
0.02603 |
表三:模擬場(chǎng)景 (c) 的 I 類錯(cuò)誤率
樣本量 |
檢驗(yàn) |
α = 0.05 |
α = 0.01 |
α = 0.001 |
α = 0.0001 |
10 |
甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn) |
0.08333 |
0.03088 |
0.00959 |
0.00345 |
t-檢驗(yàn) |
0.08357 |
0.01641 |
0.00161 |
0.00014 |
|
幼稚的 |
0.57858 |
0.46992 |
0.3583 |
0.2758 |
|
20 |
甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn) |
0.06425 |
0.01855 |
0.00387 |
0.00085 |
t-檢驗(yàn) |
0.08276 |
0.03117 |
0.0094 |
0.00322 |
|
幼稚的 |
0.5805 |
0.47132 |
0.35893 |
0.2802 |
|
50 |
甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn) |
0.0559 |
0.0131 |
0.00182 |
0.00031 |
t-檢驗(yàn) |
0.06304 |
0.0181 |
0.00382 |
9e-04 |
|
幼稚的 |
0.58574 |
0.47774 |
0.36503 |
0.28457 |
|
100 |
甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn) |
0.05207 |
0.01062 |
0.00134 |
0.00019 |
t-檢驗(yàn) |
0.05491 |
0.01258 |
0.00183 |
0.00028 |
|
幼稚的 |
0.5885 |
0.47754 |
0.36568 |
0.285 |
|
500 |
甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn) |
0.04992 |
0.00967 |
0.00091 |
0.00011 |
t-檢驗(yàn) |
0.05348 |
0.01173 |
0.00131 |
0.00019 |
|
幼稚的 |
0.59078 |
0.48068 |
0.36806 |
0.28677 |
相比之下,甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組將t檢驗(yàn)和樸素列聯(lián)表方法應(yīng)用于H 0下的相同模擬數(shù)據(jù)集。類型 I 錯(cuò)誤率的結(jié)果在表一–III,分別用于模擬場(chǎng)景(a)、場(chǎng)景(b)和場(chǎng)景(c)。在所有三種模擬場(chǎng)景下,相對(duì)于建議的檢驗(yàn), t檢驗(yàn)的 I 類錯(cuò)誤率都被夸大了。天真的列聯(lián)表方法的先進(jìn)類錯(cuò)誤率被進(jìn)一步夸大了。
因?yàn)樵O(shè)計(jì)效果將甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組提出的檢驗(yàn)與樸素檢驗(yàn)區(qū)分開來,甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組在H 0下進(jìn)行了模擬,以探索可能影響設(shè)計(jì)效果大小的因素。在先進(jìn)組模擬中,單個(gè)測(cè)序覆蓋率是從具有 15 的恒定 SD 和不同平均值的正態(tài)分布生成的。從中可以看出圖1,設(shè)計(jì)效果隨著測(cè)序覆蓋率平均值的增加而增加,樣本量對(duì)設(shè)計(jì)效果沒有太大影響。在第二組模擬中,單個(gè)測(cè)序覆蓋率是從具有恒定平均值 30 和不同 SD 值的正態(tài)分布生成的。從中可以看出圖 2,設(shè)計(jì)效果隨著測(cè)序覆蓋率的可變性增加而增加,樣本量對(duì)設(shè)計(jì)效果的影響要小得多。這些結(jié)果表明,隨著測(cè)序覆蓋率的增加,需要對(duì)原始檢驗(yàn)進(jìn)行更大的校正,并且更大的樣本量不會(huì)降低設(shè)計(jì)效果。
圖1:具有不同測(cè)序覆蓋率平均值的模擬設(shè)計(jì)效果與樣本量的關(guān)系。
圖 2:不同測(cè)序覆蓋度 SD 的模擬設(shè)計(jì)效果與樣本量的關(guān)系。
甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組接下來在H A下進(jìn)行了模擬以研究所提出的檢驗(yàn)的功效,假設(shè)病例和對(duì)照中的甲基化水平來自具有不同平均值的分布。圖 3顯示了三種模擬場(chǎng)景在α = 0.0001 時(shí)評(píng)估的功率曲線。在圖中,效應(yīng)大小由 Cohen's d表示,并計(jì)算為平均差除以模擬中設(shè)置的標(biāo)準(zhǔn)偏差。如這些圖所示,所提出的檢驗(yàn)的功效隨著效果的大小而迅速增加。對(duì)比三種模擬場(chǎng)景,場(chǎng)景(a)和場(chǎng)景(b)的功率曲線幾乎相同,而場(chǎng)景(c)的功率與場(chǎng)景(a)和(b)相比有所降低。
圖 3:α = 0.0001時(shí)模擬的功率曲線。
接下來,甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組分析了慢性淋巴細(xì)胞白血病 (CLL) 研究中的全基因組甲基化數(shù)據(jù),這是一種主要發(fā)生在成人的 B 細(xì)胞淋巴瘤,是一種非常異質(zhì)的疾病。已知 Ig VH 基因內(nèi)的突變與癌癥的侵襲性有關(guān),缺乏突變的患者預(yù)后較差。已知 CD38 水平與 Ig VH 突變狀態(tài) 和預(yù)后 相關(guān),具有較低水平的患者進(jìn)展較慢。
減少代表性亞硫酸氫鹽測(cè)序 (RRBS) 用于測(cè)量 11 個(gè) CLL 樣品中的甲基化水平 。RRBS 技術(shù)提供對(duì)任何 CpG 位點(diǎn)進(jìn)行甲基化和未甲基化的 DNA 分子計(jì)數(shù),這些位點(diǎn)通過典型運(yùn)行進(jìn)行測(cè)序,提供大約 200 萬個(gè) CpG 位點(diǎn)的數(shù)據(jù)。根據(jù) CD38 水平將樣本分類為低風(fēng)險(xiǎn)與高風(fēng)險(xiǎn),其中 7 個(gè)樣本具有低 CD38 水平(低風(fēng)險(xiǎn)),4 個(gè)樣本具有高 CD38 水平(高風(fēng)險(xiǎn))。甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組分析的 RRBS 數(shù)據(jù)已經(jīng)按照Pei 等人的描述進(jìn)行了清理和對(duì)齊。。
使用這種方法,甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組獲得了 2,442,443 個(gè) CpG 位點(diǎn)的全基因組甲基化數(shù)據(jù)。所提議的檢驗(yàn)在高風(fēng)險(xiǎn)組中的設(shè)計(jì)效果平均值為 4.04 (SD = 7.88)。低風(fēng)險(xiǎn)組的設(shè)計(jì)效果平均值為 4.53 (SD = 12.59)。建議檢驗(yàn)的P值分布相對(duì)于均勻分布向更小的 P 值移動(dòng),正如預(yù)期的那樣,如果一小部分 CpG 位點(diǎn)來自H A (圖 4)。為了比較,甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組還通過首先從甲基化計(jì)數(shù)估計(jì)甲基化比例,然后對(duì)估計(jì)的甲基化比例進(jìn)行雙樣本t檢驗(yàn),對(duì)數(shù)據(jù)集應(yīng)用t檢驗(yàn)方法。t檢驗(yàn)的P值分布(圖 5) 顯示了一種趨向于中等P值的模式,在P = 0.4附近具有強(qiáng)峰值。此分布不是H 0或H A下預(yù)期的形狀,反映了t檢驗(yàn)在 CLL 數(shù)據(jù)中的表現(xiàn)不佳。重要的是, t檢驗(yàn)中P值小于 0.01的 CpG 位點(diǎn)的百分比僅為 0.5%。
圖 4:應(yīng)用于 CLL 甲基化數(shù)據(jù)的建議檢驗(yàn)的P值分布。
圖 5:應(yīng)用于 CLL 甲基化數(shù)據(jù)的t檢驗(yàn)的P值分布。
甲基化高通量測(cè)序基因檢測(cè)質(zhì)量及控制標(biāo)準(zhǔn)分析與共識(shí)
對(duì)全基因組甲基化數(shù)據(jù)的分析賊近引起了很多關(guān)注。已經(jīng)提出了許多統(tǒng)計(jì)方法。然而,大多數(shù)方法都是針對(duì)微陣列生成的甲基化數(shù)據(jù)開發(fā)的。NGS 生成的甲基化數(shù)據(jù)對(duì)統(tǒng)計(jì)分析提出了若干挑戰(zhàn)。首先,與使用微陣列的甲基化實(shí)驗(yàn)不同,其中在特定 CpG 位點(diǎn)對(duì)一個(gè)個(gè)體進(jìn)行甲基化測(cè)量,這里甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組有每個(gè)個(gè)體的甲基化等位基因和非甲基化等位基因的計(jì)數(shù)。其次,由于測(cè)序覆蓋率的差異,受試者之間甲基化比例估計(jì)的正確性會(huì)有所不同。任何方法都應(yīng)適當(dāng)考慮這種差異。第三,真實(shí)β的分布是未知的,并且可能會(huì)影響任何關(guān)于均值β的檢驗(yàn). 第四,目前 NGS 測(cè)量每個(gè)樣本/受試者超過 200 萬個(gè) CpG 位點(diǎn)的甲基化。任何統(tǒng)計(jì)檢驗(yàn)都必須具有計(jì)算效率,才能應(yīng)用于高通量測(cè)序數(shù)據(jù)??紤]到這些挑戰(zhàn),甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組提出了一種基于聚類數(shù)據(jù)分析的差異甲基化檢驗(yàn),方法是直接對(duì)甲基化計(jì)數(shù)進(jìn)行建模。模擬結(jié)果表明,所提出的檢驗(yàn)在測(cè)量的甲基化水平的幾個(gè)分布下是穩(wěn)健的。所提出的檢驗(yàn)對(duì)于來自不同個(gè)體的覆蓋范圍的變化也是穩(wěn)健的。此外,所提出的檢驗(yàn)在計(jì)算上是有效的。在甲基化測(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組的真實(shí)數(shù)據(jù)應(yīng)用程序中,只需 5 分鐘即可在超過 200 萬個(gè) CpG 站點(diǎn)執(zhí)行所有檢驗(yàn)。使用具有 3.3 GHz CPU 的臺(tái)式計(jì)算機(jī)在 R 中執(zhí)行計(jì)算。
盡管提議的檢驗(yàn)適用于基于二項(xiàng)式計(jì)數(shù)的差異甲基化檢驗(yàn),但當(dāng)前的方法無法適應(yīng)諸如批次效應(yīng)或年齡和性別等協(xié)變量等因素。批次效應(yīng)可能在任何全基因組研究中都很重要。批次效應(yīng)可能會(huì)在測(cè)序覆蓋率方面進(jìn)入高通量測(cè)序甲基化研究。這里使用的檢驗(yàn)將解釋這種批次效應(yīng)。但是,在當(dāng)前檢驗(yàn)中可能無法正確考慮批次引起的任何其他隨機(jī)效應(yīng)。此外,已顯示相對(duì)甲基化水平與年齡密切相關(guān)和有性行為。未來的工作應(yīng)側(cè)重于擴(kuò)展此方法,以適應(yīng)協(xié)變量和批次效應(yīng)。
所提出的檢驗(yàn)的另一個(gè)限制是它是差異甲基化的單基因座測(cè)試,并且忽略了附近 CpG 位點(diǎn)之間的相關(guān)性。人們?cè)絹碓疥P(guān)注開發(fā)檢測(cè)差異甲基化區(qū)域 (DMR) 的方法??梢詫⒓谆瘻y(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組提出的測(cè)試包含在用于檢測(cè) DMR 的分層建模方法中??傊谆瘻y(cè)序與新一代測(cè)序技術(shù)應(yīng)用拓展重大課題組提出的測(cè)試是全基因組甲基化研究的有前途和實(shí)用的測(cè)試。由于其效率,它適用于全基因組研究中差異甲基化的先進(jìn)輪掃描。
(責(zé)任編輯:佳學(xué)基因)