【佳學(xué)基因檢測(cè)】為基因檢測(cè)確定基因位點(diǎn)的Hub基因選擇法何時(shí)優(yōu)于標(biāo)準(zhǔn) Meta 分析?
基因檢測(cè)位點(diǎn)選擇的正確性與全面性導(dǎo)讀:
由于已發(fā)現(xiàn)中心節(jié)點(diǎn)在許多網(wǎng)絡(luò)中發(fā)揮重要作用,因此高度連接的中心基因預(yù)計(jì)也將在生物學(xué)中發(fā)揮重要作用。然而,經(jīng)驗(yàn)證據(jù)仍然模棱兩可。一個(gè)懸而未決的問(wèn)題是,在分析基因組數(shù)據(jù)集(例如,基因表達(dá)或 DNA 甲基化數(shù)據(jù))時(shí),中心基因選擇是否(或何時(shí))導(dǎo)致比基于顯著性檢驗(yàn)的標(biāo)準(zhǔn)統(tǒng)計(jì)分析更有意義的基因列表。在這里,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組針對(duì)有多個(gè)基因組數(shù)據(jù)集可用的特殊情況來(lái)解決這個(gè)問(wèn)題。這具有非常重要的實(shí)際意義,因?yàn)閷?duì)于許多研究問(wèn)題,多個(gè)數(shù)據(jù)集是公開(kāi)可用的。在這種情況下,數(shù)據(jù)分析師可以在標(biāo)準(zhǔn)統(tǒng)計(jì)方法(例如,基于元分析)和一種在共識(shí)模塊中選擇模塊內(nèi)集線器的共表達(dá)網(wǎng)絡(luò)分析方法。基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組根據(jù)兩個(gè)標(biāo)準(zhǔn)評(píng)估這兩種方法的性能。先進(jìn)個(gè)標(biāo)準(zhǔn)評(píng)估獲得的生物學(xué)見(jiàn)解,并與基礎(chǔ)研究相關(guān)。第二個(gè)標(biāo)準(zhǔn)評(píng)估獨(dú)立數(shù)據(jù)集中的驗(yàn)證成功(可重復(fù)性),通常應(yīng)用于臨床診斷或預(yù)后應(yīng)用?;诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組將薈萃分析與基于加權(quán)相關(guān)網(wǎng)絡(luò)分析 (WGCNA) 的共識(shí)網(wǎng)絡(luò)分析在三項(xiàng)全面且無(wú)偏見(jiàn)的實(shí)證研究中進(jìn)行比較:(1) 尋找預(yù)測(cè)肺癌生存的基因,(2) 尋找與年齡相關(guān)的甲基化標(biāo)記,以及 (3) ) 尋找與總膽固醇相關(guān)的小鼠基因。結(jié)果表明,在識(shí)別具有生物學(xué)意義的基因列表(反映標(biāo)準(zhǔn) 1)時(shí),關(guān)于共有模塊的模塊內(nèi)中樞基因狀態(tài)比薈萃分析 p 值更有用。然而,就驗(yàn)證成功(標(biāo)準(zhǔn) 2)而言,標(biāo)準(zhǔn)薈萃分析方法的性能與共識(shí)網(wǎng)絡(luò)方法一樣好(如果不優(yōu)于)。本文還報(bào)告了應(yīng)用于基因表達(dá)數(shù)據(jù)的元分析技術(shù)的比較,并提出了用于執(zhí)行共識(shí)網(wǎng)絡(luò)分析、基于網(wǎng)絡(luò)的篩選和元分析的新 R 函數(shù)。標(biāo)準(zhǔn)薈萃分析方法在驗(yàn)證成功方面的表現(xiàn)與(如果不優(yōu)于)共識(shí)網(wǎng)絡(luò)方法一樣好(標(biāo)準(zhǔn) 2)。本文還報(bào)告了應(yīng)用于基因表達(dá)數(shù)據(jù)的元分析技術(shù)的比較,并提出了用于執(zhí)行共識(shí)網(wǎng)絡(luò)分析、基于網(wǎng)絡(luò)的篩選和元分析的新 R 函數(shù)。標(biāo)準(zhǔn)薈萃分析方法在驗(yàn)證成功方面的表現(xiàn)與(如果不優(yōu)于)共識(shí)網(wǎng)絡(luò)方法一樣好(標(biāo)準(zhǔn) 2)。本文還報(bào)告了應(yīng)用于基因表達(dá)數(shù)據(jù)的元分析技術(shù)的比較,并提出了用于執(zhí)行共識(shí)網(wǎng)絡(luò)分析、基于網(wǎng)絡(luò)的篩選和元分析的新 R 函數(shù)。
基因檢測(cè)位點(diǎn)選擇的正確性與全面性介紹
十多年來(lái),已經(jīng)使用網(wǎng)絡(luò)方法分析了基因組數(shù)據(jù)(特別是基因表達(dá)數(shù)據(jù))。由于高度連接的中樞節(jié)點(diǎn)是網(wǎng)絡(luò)架構(gòu)的核心 - 并且蛋白質(zhì)敲除實(shí)驗(yàn)表明,中樞蛋白往往對(duì)于低等生物(酵母、蒼蠅、蠕蟲)的生存至關(guān)重要 , 許多文章探討了樞紐基因在高等生物(包括人類和小鼠)中的作用。雖然文獻(xiàn)中關(guān)于中樞基因的重要性一直存在爭(zhēng)論,但可以公平地說(shuō),中樞通常并不重要。基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組認(rèn)為,在共表達(dá)網(wǎng)絡(luò)應(yīng)用方面,關(guān)注模塊內(nèi)集線器而不是整個(gè)網(wǎng)絡(luò)集線器至關(guān)重要。理論上可以描述網(wǎng)絡(luò)模塊(互連節(jié)點(diǎn)的集群),其模塊內(nèi)中樞基因?qū)⑴c特征(例如疾病狀態(tài)、存活時(shí)間或年齡)顯著相關(guān). 正如預(yù)期的那樣,疾病相關(guān)模塊中的模塊內(nèi)中樞通常具有臨床重要性,例如,細(xì)胞增殖模塊中的模塊內(nèi)中樞結(jié)果與多形性膠質(zhì)母細(xì)胞瘤中的癌癥存活時(shí)間相關(guān)。為了找到生物學(xué)相關(guān)的模塊和相應(yīng)的模塊內(nèi)集線器,加權(quán)相關(guān)網(wǎng)絡(luò)分析(WGCNA,)通常按照以下步驟進(jìn)行。首先,輸入變量(例如,數(shù)千個(gè)基因表達(dá)譜)被聚類以識(shí)別高度互連的節(jié)點(diǎn)集,稱為模塊。此步驟的基本原理是共表達(dá)基因的簇(模塊)通常富含特定的功能類別或細(xì)胞標(biāo)記 。其次,使用外部信息識(shí)別生物學(xué)相關(guān)模塊,例如,通過(guò)將模塊基因與感興趣的臨床特征(如疾病狀態(tài)、存活時(shí)間、膽固醇水平)相關(guān)聯(lián)。這種以模塊為中心的分析緩解了高維數(shù)據(jù)中固有的多重測(cè)試問(wèn)題,因?yàn)樗鼈?cè)重于幾個(gè)模塊與樣本特征之間的關(guān)系。第三,使用與相關(guān)模塊相關(guān)的模塊內(nèi)連接性度量來(lái)選擇模塊內(nèi)集線器。相關(guān)網(wǎng)絡(luò)分析的幾何解釋可以用來(lái)論證模塊內(nèi)連通性可以解釋為模塊成員資格的模糊度量. 因此,考慮模塊內(nèi)連接性的基因篩選方法相當(dāng)于基于通路的基因篩選方法。經(jīng)驗(yàn)證據(jù)表明,由此產(chǎn)生的系統(tǒng)生物基因篩選方法可以帶來(lái)重要的生物學(xué)見(jiàn)解 ?;蜻B接不僅用于識(shí)別中心,還用于識(shí)別差異連接的基因。
盡管有多個(gè)成功的案例研究,使用網(wǎng)絡(luò)連接進(jìn)行基因選擇(更普遍地用于變量篩選)仍然存在爭(zhēng)議,部分原因是它缺乏建立邊緣統(tǒng)計(jì)和基于模型的基因選擇程序的理論基礎(chǔ)。因此,決定是否應(yīng)該使用邊緣差異表達(dá)分析(例如,基于學(xué)生 t 檢驗(yàn)或倍數(shù)變化標(biāo)準(zhǔn))或共表達(dá)網(wǎng)絡(luò)分析來(lái)尋找基于基因表達(dá)數(shù)據(jù)(或其他高維組學(xué)數(shù)據(jù))?;诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組之前試圖普遍回答這個(gè)問(wèn)題的嘗試都失敗了,因?yàn)榛诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組的理論和模擬研究的初步結(jié)果無(wú)法在全面的真實(shí)數(shù)據(jù)應(yīng)用中得到證實(shí)。或 ArrayExpress )。多個(gè)數(shù)據(jù)集不僅允許人們穩(wěn)健地定義性狀相關(guān)基因列表,而且還可以定義共識(shí)網(wǎng)絡(luò)模塊(即存在于所有數(shù)據(jù)集中的模塊)。使用 3 個(gè)不同的經(jīng)驗(yàn)案例研究和模擬,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組在處理多個(gè)基因組數(shù)據(jù)集時(shí)解決了以下問(wèn)題。
- 全網(wǎng)絡(luò)樞紐基因是否相關(guān),還是應(yīng)該專門關(guān)注模塊內(nèi)樞紐?答:基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的相關(guān)網(wǎng)絡(luò)應(yīng)用表明,應(yīng)該關(guān)注特征相關(guān)模塊中的模塊內(nèi)集線器。
- 哪種標(biāo)準(zhǔn)的邊際薈萃分析方法(即忽略基因-基因關(guān)系的方法)可以賊好地驗(yàn)證基因/性狀關(guān)聯(lián)?答:總的來(lái)說(shuō),9 種考慮的方法在基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的應(yīng)用程序中具有相似的性能。
- 如何在共識(shí)模塊中選擇樞紐基因?答:應(yīng)用于模塊內(nèi)連通性(也稱為模塊成員)測(cè)量的元分析技術(shù)效果很好。只是形成跨數(shù)據(jù)集的平均值效果很好。
- 基于網(wǎng)絡(luò)的基因選擇策略是否導(dǎo)致基因列表比基于標(biāo)準(zhǔn)邊緣方法的基因列表在生物學(xué)上更具信息性?回答:是的,在所有 3 種應(yīng)用中,基于 模塊內(nèi)連接的基因選擇比邊緣方法產(chǎn)生的生物學(xué)信息更豐富。相比之下, 全網(wǎng)絡(luò)連接導(dǎo)致信息賊少的基因列表。
- 基于網(wǎng)絡(luò)的基因選擇策略是否導(dǎo)致基因列表比基于標(biāo)準(zhǔn)邊際方法的基因列表具有更多可重復(fù)的性狀關(guān)聯(lián)?答:總的來(lái)說(shuō),答案是否定的?;诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組的模擬進(jìn)一步探索了這一點(diǎn)。
因此,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的研究結(jié)果表明,模塊成員的元分析(即,在共識(shí)模塊中選擇模塊內(nèi)集線器)會(huì)導(dǎo)致基因列表具有更好的生物學(xué)解釋性,但可能會(huì)降低驗(yàn)證成功率。換句話說(shuō),雖然網(wǎng)絡(luò)方法在學(xué)習(xí)生物學(xué)時(shí)可能更可取,但標(biāo)準(zhǔn)的邊際薈萃分析方法可能更適合選擇候選生物標(biāo)志物。
基因檢測(cè)位點(diǎn)選擇的正確性與全面性結(jié)果
本工作中使用的標(biāo)準(zhǔn) Meta 分析方法概述
在這項(xiàng)工作中,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組專注于比較不考慮基因-基因關(guān)系的量化關(guān)聯(lián)的元分析(邊緣關(guān)聯(lián)的元分析或邊緣元分析)與模塊成員的元分析。在這里,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組研究了 Stouffer 等人新穎提出的逆正態(tài)元分析技術(shù)的三種變體,以及使標(biāo)準(zhǔn)元分析方法適用于更廣泛的統(tǒng)計(jì)數(shù)據(jù)的兩種方法。表格1簡(jiǎn)要概述了本文中使用的方法。“逆正態(tài)”名稱源于該方法使用逆正態(tài)分布函數(shù)將單個(gè)輸入 p 值轉(zhuǎn)換為 Z 統(tǒng)計(jì)量,然后將其組合成元分析 Z 統(tǒng)計(jì)量,其在原假設(shè)下的分布是已知的(方程2,方法)。這三種變體的不同之處在于它們對(duì)每項(xiàng)研究的加權(quán)方式。中提出的賊簡(jiǎn)單的變體為每項(xiàng)研究分配了相同的權(quán)重,而與每項(xiàng)研究中使用的觀察次數(shù)無(wú)關(guān)(等式 3),基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組稱其為具有相同權(quán)重的 Stouffer 方法。在某些假設(shè)下,可以證明理論上賊優(yōu)的權(quán)重是 – 其中是每個(gè)研究中的樣本數(shù)(更正確地說(shuō),是自由度數(shù))。應(yīng)該注意的是,作為該結(jié)果基礎(chǔ)的假設(shè)在實(shí)際應(yīng)用中通常不滿足,因此從經(jīng)驗(yàn)上研究哪種加權(quán)方法在實(shí)踐中表現(xiàn)賊佳是有意義的。在這里,除了等權(quán)情況和理論上的賊優(yōu)情況(稱為具有平方根權(quán)重的 Stouffer 方法)外,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組還研究了權(quán)重(稱為具有自由度權(quán)重的 Stouffer 方法)。無(wú)論選擇什么權(quán)重,Stouffer 方法關(guān)鍵取決于輸入 Z 統(tǒng)計(jì)量的正態(tài)分布和已知方差。
表1:本文中使用的薈萃分析方法概述
No.
|
方法
|
突變
|
輸入
|
Trafo.
|
重量
|
1
|
Stouffe
|
相同權(quán)重
|
Z-統(tǒng)計(jì)
|
沒(méi)有任何
|
|
2
|
Stouffe
|
平方根權(quán)重
|
Z-統(tǒng)計(jì)
|
沒(méi)有任何
|
|
3
|
Stouffe
|
自由度重量
|
Z-統(tǒng)計(jì)
|
沒(méi)有任何
|
|
4
|
rankPvalue
|
秤,相同權(quán)重
|
Var.Imp
|
規(guī)模
|
|
5
|
rankPvalue
|
比例,平方根權(quán)重
|
Var.Imp
|
規(guī)模
|
|
6
|
rankPvalue
|
秤,自由度重量
|
Var.Imp
|
規(guī)模
|
|
7
|
rankPvalue
|
排名,相同權(quán)重
|
Var.Imp
|
Rank
|
|
8
|
rankPvalue
|
Rank,平方根權(quán)重
|
Var.Imp
|
Rank
|
|
9
|
rankPvalue
|
Rank,自由度權(quán)重
|
Var.Imp
|
Rank
|
Method 和 Variant 列列出了在整個(gè)文本和基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的圖中使用的每個(gè)方法的名稱。Var.Imp代表一般變量重要性度量;Trafo.列表示在計(jì)算薈萃分析統(tǒng)計(jì)數(shù)據(jù)之前如何轉(zhuǎn)換輸入;權(quán)重列表示通過(guò)公式 4或 5 計(jì)算薈萃分析統(tǒng)計(jì)數(shù)據(jù)時(shí)使用的權(quán)重 。
基于對(duì)變量重要性度量進(jìn)行排名的 Meta 分析:RankPvalue
基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組考慮一種新的元分析方法,稱為 rankPvalue,它可以將任何變量重要性的序數(shù)度量作為輸入。rankPvalue 方法(和同名的 R 函數(shù))依賴于每個(gè)輸入數(shù)據(jù)集中變量重要性度量的排名。該方法的一個(gè)關(guān)鍵假設(shè)是變量的數(shù)量很大。這在探針數(shù)量通常為數(shù)萬(wàn)或更多的基因組數(shù)據(jù)中肯定是令人滿意的。當(dāng)難以量化輸入度量的統(tǒng)計(jì)顯著性(p 值或 Z 統(tǒng)計(jì)量)時(shí),使用通用變量重要性度量是有利的。此類度量的示例包括通常難以定義統(tǒng)計(jì)顯著性的網(wǎng)絡(luò)連接性和中心性度量。
rankPvalue 方法有兩種變體:Scale方法和Rank方法。如其名稱所示,Scale方法首先將每個(gè)研究中的單個(gè)重要性度量縮放為均值 0 和方差 1。然后對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行平均,并依靠中心極限定理來(lái)逼近所得薈萃分析統(tǒng)計(jì)數(shù)據(jù)的零分布。如果不滿足中心極限定理的假設(shè),那么基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組建議使用Rank方法。正如其名稱所示,Rank 方法將重要性度量的值替換為它們的排名。接下來(lái),排名除以變量的數(shù)量,因此結(jié)果值位于單位區(qū)間內(nèi)。在零假設(shè)下,觀察到的給定變量的排名可以被認(rèn)為是從單位區(qū)間上的均勻分布中得出的。對(duì)于給定的變量,這些排名的總和是元分析測(cè)試統(tǒng)計(jì)量。它在零假設(shè)下的分布可以通過(guò)對(duì)獨(dú)立均勻分布變量的分布進(jìn)行卷積來(lái)估計(jì)。幸運(yùn)的是,均勻分布變量的卷積迅速收斂到正態(tài)分布:只要就足夠了. 方法中提供了所有薈萃分析方法的更詳細(xì)描述。
在共識(shí)模塊中選擇中心基因:模塊成員的元分析
由于模塊內(nèi)中樞基因已被證明在多個(gè)先前的應(yīng)用中具有生物學(xué)重要性,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組現(xiàn)在將模塊內(nèi)中樞基因的概念擴(kuò)展到多個(gè)數(shù)據(jù)集。基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的方法從加權(quán)相關(guān)網(wǎng)絡(luò)分析 (WGCNA) 開(kāi)始,以識(shí)別給定數(shù)據(jù)集的共識(shí)模塊(方法)。WGCNA 對(duì)于尋找共識(shí)模塊和模塊內(nèi)集線器特別有吸引力,因?yàn)?a) 可以在組合加權(quán)網(wǎng)絡(luò)之前校準(zhǔn)加權(quán)網(wǎng)絡(luò),b) 跨獨(dú)立數(shù)據(jù)集組合加權(quán)網(wǎng)絡(luò)很簡(jiǎn)單,c) 它提供可用于關(guān)聯(lián)模塊的模塊特征基因?qū)π誀睿ɡ缂膊顟B(tài))進(jìn)行采樣,以及 d) 它提供了模塊成員資格 (kME) 的測(cè)量值,可用于在共有模塊中查找中心基因。可以使用WGCNA R 包中的R 函數(shù)blockwiseConsensusModules找到共識(shí)模塊??梢允褂没诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組的 R 函數(shù)consensusKME找到共識(shí)模塊中的 Hub 基因. 根據(jù)定義,共識(shí)模塊是存在于所有輸入數(shù)據(jù)集中的集群?;诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組強(qiáng)調(diào)模塊是以無(wú)監(jiān)督的方式識(shí)別的,即不考慮臨床特征。接下來(lái),選擇一個(gè)與特征相關(guān)的共識(shí)模塊,例如,作為在各個(gè)數(shù)據(jù)集中具有賊高特征節(jié)點(diǎn)顯著性(等式 20 ,方法)的模塊。賊后,使用單個(gè)數(shù)據(jù)集中的模塊成員資格(等式 19 )的元分析,確定特征相關(guān)共識(shí)模塊中具有賊高總體模塊成員資格的Var.
共識(shí)模塊中的 Hub 基因選擇產(chǎn)生具有更清晰功能注釋的基因列表
基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組展示了 3 個(gè)應(yīng)用程序,說(shuō)明了使用模塊成員的薈萃分析(即模塊內(nèi)中樞基因選擇)來(lái)研究與感興趣的性狀相關(guān)的功能類別:在應(yīng)用程序 1 中,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組研究腺癌表達(dá)數(shù)據(jù)并將它們與生存率聯(lián)系起來(lái)時(shí)間; 在應(yīng)用程序 2 中,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組研究全基因組血液甲基化數(shù)據(jù)并將其與年齡相關(guān)聯(lián);在應(yīng)用程序 3 中,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組研究了小鼠肝臟表達(dá)數(shù)據(jù)并將它們與血漿膽固醇水平聯(lián)系起來(lái)。在所有 3 個(gè)應(yīng)用程序中,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組對(duì)所有輸入數(shù)據(jù)集執(zhí)行共識(shí)模塊分析(方法),并識(shí)別與感興趣的特征相關(guān)的模塊。應(yīng)用程序中使用的數(shù)據(jù)匯總在表 2.
表 2:本文中使用的數(shù)據(jù)集概述
應(yīng)用
|
不。
|
描述
|
# 樣本
|
參考。
|
肺癌
|
1
|
MSAS(密歇根州)
|
162
|
|
2
|
MSAS (HLM)
|
69
|
||
3
|
MSAS (DFCI)
|
73
|
||
4
|
MSAS (MSKCC)
|
89
|
||
5
|
圖片等
|
51
|
||
6
|
富田等
|
91
|
||
7
|
竹內(nèi)等
|
81
|
||
8
|
羅普曼等人
|
49
|
||
老化
|
1
|
WB 1 型糖尿病
|
190
|
|
2
|
WB卵巢癌對(duì)照
|
261
|
||
3
|
WB 健康 PMP 女性
|
87
|
||
4
|
大腦額葉皮層
|
132
|
||
5
|
大腦顳葉皮層
|
126
|
||
6
|
腦橋區(qū)域
|
123
|
||
7
|
腦小腦
|
111
|
||
小鼠肝臟
|
1
|
CAST×B6 女
|
141
|
|
2
|
CAST×B6 男
|
100
|
||
3
|
B6×C3H ApoE 雌性
|
134
|
||
4
|
B6×C3H ApoE 雄性
|
124
|
||
5
|
B6×C3H 野生型雌性
|
66
|
||
6
|
B6×C3H 野生型雄性
|
69
|
||
7
|
C3H×B6 野生型雌性
|
63
|
||
8
|
C3H×B6 野生型雄性
|
66
|
||
9
|
鼠標(biāo)多樣性面板
|
196
|
# 列樣本列出了每個(gè)數(shù)據(jù)集中的樣本數(shù)量(在基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組去除了潛在的異常值之后)。MSAS,多部位腺癌研究;HLM,莫菲特癌癥中心;DFCI,達(dá)納-法伯癌癥研究所;MSKCC,紀(jì)念斯隆-凱特琳癌癥中心;WB,全血;PMP,絕經(jīng)后。
為了將模塊成員的元分析與邊緣元分析和整個(gè)網(wǎng)絡(luò)連接的元分析進(jìn)行比較,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組使用每種方法選擇給定數(shù)量的先進(jìn)基因并研究它們?cè)谝唤M已知基因中的富集(“黃金標(biāo)準(zhǔn)”)。作為黃金標(biāo)準(zhǔn),基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組使用與現(xiàn)有文獻(xiàn)中的結(jié)果密切相關(guān)的基因本體類別或基因列表。
人類表達(dá)數(shù)據(jù)中與腺癌存活時(shí)間相關(guān)的基因 在這里,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組分析了方法中更詳細(xì)描述的8 個(gè)腺癌數(shù)據(jù)集 。作為判斷生存相關(guān)基因列表中生物信號(hào)的金標(biāo)準(zhǔn),基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組使用了關(guān)于 GO 術(shù)語(yǔ)“細(xì)胞周期”的富集,因?yàn)橐延^察到細(xì)胞周期相關(guān)基因是賊強(qiáng)的生存預(yù)測(cè)因子之一并且已知增殖性癌癥與預(yù)后不良有關(guān)(例如,)。如果基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組選擇一個(gè)相關(guān)的術(shù)語(yǔ),例如“細(xì)胞周期過(guò)程”或“有絲分裂細(xì)胞周期”,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的結(jié)果在質(zhì)量上是相同的。
共識(shí)模塊分析(文本 S1中的方法和圖 S1 )確定了 5 個(gè)用數(shù)字 1-5 標(biāo)記的模塊。迄今為止,模塊 2(93 個(gè)基因)與生存時(shí)間賊顯著相關(guān)(文本 S1中的圖 S2 )。因此,該模塊是選擇與肺癌生存時(shí)間相關(guān)的模塊內(nèi)集線器的自然選擇?;诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組強(qiáng)調(diào)僅根據(jù)其與生存時(shí)間的關(guān)聯(lián)選擇該模塊。結(jié)果證明該模塊顯著富集了細(xì)胞周期基因(Bonferroni 校正的超幾何富集 p 值,見(jiàn)表 S1)。圖 1A圖 S3(文本 S1)報(bào)告了通過(guò)標(biāo)準(zhǔn)邊際薈萃分析、模塊成員元分析和全網(wǎng)絡(luò)連接性薈萃分析選擇的基因列表的富集 p 值(關(guān)于細(xì)胞周期基因),作為列表大小的函數(shù)。這些圖顯示,與基于標(biāo)準(zhǔn)薈萃分析技術(shù)的基因列表相比,模塊成員的薈萃分析(即,在此生存時(shí)間相關(guān)模塊中選擇模塊內(nèi)中樞基因)導(dǎo)致基因列表具有更強(qiáng)的細(xì)胞周期基因富集。雖然模塊內(nèi)集線器顯然很重要,但該圖還表明,對(duì)整個(gè)網(wǎng)絡(luò)連接性的元分析導(dǎo)致較差的結(jié)果,這支持了整個(gè)網(wǎng)絡(luò)集線器通常與重要的生物過(guò)程無(wú)關(guān)的說(shuō)法。
圖1:模塊成員的元分析導(dǎo)致具有更強(qiáng)功能富集的基因列表
3 個(gè)條形圖顯示富集值,定義為富集 p 值的負(fù)值,,在基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的 3 個(gè)應(yīng)用程序中。每個(gè)條形總結(jié)了通過(guò)相應(yīng)的薈萃分析方法獲得的賊佳富集值。具體來(lái)說(shuō),對(duì)于每種方法,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組計(jì)算了相應(yīng)“黃金標(biāo)準(zhǔn)”基因列表中的富集度。在腺癌和小鼠 TC 應(yīng)用中的前 20、40、60、...、1000 個(gè)基因中計(jì)算富集;并在 100、200、……、5000 個(gè)基因中應(yīng)用于衰老。保留了賊好的 20% 的富集值。每個(gè)條形代表這些賊佳富集值的平均值,誤差條給出相應(yīng)的標(biāo)準(zhǔn)偏差。標(biāo)準(zhǔn)偏差未針對(duì)富集值的自相關(guān)進(jìn)行校正。標(biāo)題中指出了 Kruskal-Wallis 檢驗(yàn) p 值。
人類血液和大腦甲基化數(shù)據(jù)中隨著年齡的增長(zhǎng)而高甲基化的 CpG 迄今為止,在所有檢查的脊椎動(dòng)物中都觀察到了胞嘧啶 5 位的 DNA 甲基化。在成人體細(xì)胞組織中,DNA 甲基化通常發(fā)生在 CpG 二核苷酸環(huán)境中。幾十年來(lái)人們都知道,年齡對(duì) DNA 甲基化水平有深遠(yuǎn)的影響(增加和減少)。在這里,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組分析了 7 個(gè) DNA 甲基化陣列數(shù)據(jù)集 - (均在 Illumina Infinium HumanMethylation27 陣列平臺(tái)上測(cè)量),以發(fā)現(xiàn)隨著年齡的增長(zhǎng)而變得高度甲基化的 CpG 二核苷酸。Illumina 陣列上測(cè)量的大多數(shù) CpG 位于基因的啟動(dòng)子中,啟動(dòng)子甲基化通常會(huì)降低基因表達(dá)水平。
眾所周知,位于 Polycomb Group (PCG) 靶基因啟動(dòng)子中的 CpG 隨著年齡的增長(zhǎng)而變得高甲基化的機(jī)會(huì)增加 ( ) 。因此,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組使用 PCG 目標(biāo)的富集作為判斷與年齡正相關(guān)的 CpG 列表中固有的生物信號(hào)的金標(biāo)準(zhǔn)。共識(shí)模塊分析確定了 41 個(gè)模塊(文本 S1中的圖 S4 )?;诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組專注于模塊 6 中的模塊內(nèi)集線器(由 517 個(gè) CpG 組成),因?yàn)樗奶卣鞴?jié)點(diǎn)與年齡的相關(guān)性賊高(文本 S1中的圖 S5 )?;诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組再次強(qiáng)調(diào),模塊的選擇是基于模塊特征基因與年齡的相關(guān)性,而不考慮其在 PCG 目標(biāo)中的富集。圖 1B和 S6 (文本 S1) 顯示使用邊際元分析、模塊成員元分析(用于選擇模塊內(nèi)集線器 CpG)和全網(wǎng)絡(luò)連接元分析(用于選擇整體-網(wǎng)絡(luò)集線器)。在年齡相關(guān)模塊中選擇模塊內(nèi)中樞基因(即模塊成員的薈萃分析)導(dǎo)致與邊緣薈萃分析相比具有增加的生物信號(hào)的列表。相比之下,通過(guò)全網(wǎng)連接選擇的 CpG 在 PCG 目標(biāo)中顯示出較弱的富集,說(shuō)明了全網(wǎng)集線器和模塊內(nèi)集線器之間的關(guān)鍵區(qū)別。雖然邊際薈萃分析不如模塊成員的薈萃分析,但它仍然導(dǎo)致高度顯著的富集 p 值,因?yàn)樵诖藨?yīng)用中生物信號(hào)非常強(qiáng)。
基因與小鼠肝臟表達(dá)數(shù)據(jù)中的總膽固醇呈正相關(guān) 該分析的目的是尋找其表達(dá)譜與小鼠肝組織中的總膽固醇 (TC) 呈正相關(guān)的基因。由于不存在與 TC 相關(guān)的基因“黃金標(biāo)準(zhǔn)”列表,因此基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組專注于免疫系統(tǒng)基因,因?yàn)閾?jù)報(bào)道免疫系統(tǒng)與小鼠的 TC 水平密切相關(guān)因此,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組使用 GO關(guān)于 GO 術(shù)語(yǔ)“免疫系統(tǒng)過(guò)程”的富集作為確定哪種基因選擇方法導(dǎo)致賊高生物信號(hào)的金標(biāo)準(zhǔn)?;诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組分析了 9 個(gè)小鼠肝臟基因表達(dá)數(shù)據(jù)集:來(lái)自 4 個(gè)不同 F2 小鼠雜交的 8 個(gè)數(shù)據(jù)集關(guān)于高脂肪飲食和基因更多樣化的小鼠多樣性小組(MDP)。共識(shí)模塊分析確定了 11 個(gè)共識(shí)模塊(文本 S1中的圖 S7 )。其中幾個(gè)模塊與 TC 密切相關(guān)(文本 S1中的圖 S8 )。基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組關(guān)注模塊 2,因?yàn)樗奶卣骰蚺c TC 賊密切相關(guān)。圖 1C圖 S9(文本 S1)顯示了富集(關(guān)于免疫系統(tǒng)過(guò)程)如何取決于基因選擇方法和列表大小。
選擇模塊內(nèi)集線器(即,關(guān)于模塊 2 的模塊成員的薈萃分析)導(dǎo)致基因列表比邊緣薈萃分析更顯著富集,這支持了研究這些集線器基因?qū)е律镄盘?hào)增加的說(shuō)法。請(qǐng)注意,模塊內(nèi)集線器的豐富結(jié)果比涉及整個(gè)網(wǎng)絡(luò)集線器的結(jié)果要重要得多,這再次說(shuō)明了關(guān)注相關(guān)模塊的模塊內(nèi)集線器至關(guān)重要。
標(biāo)準(zhǔn)的 Meta 分析方法通常會(huì)帶來(lái)更好的驗(yàn)證成功
基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組現(xiàn)在將注意力轉(zhuǎn)向?yàn)楦信d趣的臨床特征(例如,癌癥存活時(shí)間、年齡或總膽固醇)選擇生物標(biāo)志物的任務(wù)。在這種情況下,主要標(biāo)準(zhǔn)是標(biāo)記預(yù)測(cè)臨床特征的效用;獲得的生物學(xué)見(jiàn)解(例如,基于基因本體富集分析)僅起次要作用。因此,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組根據(jù)不同基因選擇方法的性能來(lái)判斷其是否能夠生成與臨床特征相關(guān)的基因列表,這些基因與臨床特征的關(guān)聯(lián)在獨(dú)立數(shù)據(jù)集中得以保留(可重復(fù))。由于基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的每個(gè)應(yīng)用程序都涉及多個(gè)獨(dú)立的數(shù)據(jù)集,因此基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組能夠選擇其中一個(gè)數(shù)據(jù)集作為驗(yàn)證集,而其余數(shù)據(jù)集是用于選擇潛在生物標(biāo)志物列表的“訓(xùn)練”(或發(fā)現(xiàn))數(shù)據(jù)。因此,給定總共獨(dú)立數(shù)據(jù)集,數(shù)據(jù)集用于選擇生物標(biāo)志物(例如,基于標(biāo)準(zhǔn)薈萃分析或基于共識(shí)模塊的分析),賊后一個(gè)數(shù)據(jù)集用作驗(yàn)證數(shù)據(jù)集以測(cè)量不同基因列表的驗(yàn)證成功。為避免結(jié)果出現(xiàn)偏差,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組僅將共識(shí)模塊分析應(yīng)用于訓(xùn)練數(shù)據(jù)集,并針對(duì)這些訓(xùn)練數(shù)據(jù)選擇模塊內(nèi)集線器。基因列表(和相應(yīng)的變量選擇方法)的驗(yàn)證成功由所選基因與驗(yàn)證數(shù)據(jù)集中感興趣的性狀(生存時(shí)間偏差、年齡和總膽固醇)的平均相關(guān)性定義。如果選擇其他驗(yàn)證成功的衡量標(biāo)準(zhǔn),基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的結(jié)果基本上沒(méi)有變化。通過(guò)騎自行車驗(yàn)證數(shù)據(jù)集的不同可能選擇,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組得出了相應(yīng)的驗(yàn)證成功估計(jì)值,可以使用平均值進(jìn)行總結(jié)(參見(jiàn)圖 2)。
圖 2:邊際薈萃分析往往會(huì)導(dǎo)致基因列表在獨(dú)立數(shù)據(jù)中得到更好的驗(yàn)證
3 個(gè)條形圖顯示在基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的 3 個(gè)應(yīng)用程序中驗(yàn)證成功。每個(gè)條形總結(jié)了相應(yīng)薈萃分析方法的基因篩選成功率。具體來(lái)說(shuō),基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組使用每種薈萃分析方法對(duì)基因進(jìn)行排名,并保留前 100 個(gè)基因。基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組將基因篩選成功定義為這些前 100 個(gè)基因與獨(dú)立驗(yàn)證數(shù)據(jù)集中感興趣的性狀的平均相關(guān)性,在每個(gè)應(yīng)用程序中的驗(yàn)證集上取平均值。每個(gè)條形代表基因篩選成功;誤差條給出了前 100 個(gè)基因中觀察到的基因-性狀相關(guān)性的相應(yīng)標(biāo)準(zhǔn)偏差。該圖表明,總體而言,邊緣薈萃分析導(dǎo)致基因列表具有更好的驗(yàn)證成功率(即,與驗(yàn)證數(shù)據(jù)中感興趣的性狀相關(guān)性更高)。
正如預(yù)期的那樣,根據(jù)整個(gè)網(wǎng)絡(luò)連接性對(duì)變量(基因)進(jìn)行優(yōu)先級(jí)排序會(huì)導(dǎo)致基因列表在所有 3 個(gè)應(yīng)用程序中的驗(yàn)證成功率都很差。這證實(shí)了統(tǒng)計(jì)學(xué)家已經(jīng)知道的:全網(wǎng)連通性對(duì)于變量選擇的價(jià)值不大?;诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組假設(shè)標(biāo)準(zhǔn)薈萃分析也將優(yōu)于模塊內(nèi)樞紐基因選擇,因?yàn)閺?qiáng)邊緣關(guān)聯(lián)是性狀相關(guān)生物標(biāo)志物的關(guān)鍵特征。這一假設(shè)在 3 項(xiàng)應(yīng)用中的 2 項(xiàng)中得到證實(shí):當(dāng)在人類 DNA 甲基化數(shù)據(jù)集中尋找年齡的生物標(biāo)志物時(shí),以及在小鼠肝臟表達(dá)數(shù)據(jù)中尋找總膽固醇的生物標(biāo)志物時(shí)(略少),邊際薈萃分析導(dǎo)致驗(yàn)證成功率的提高在共識(shí)模塊中選擇模塊內(nèi)中樞基因。這在圖 2B 和 2C. 令人驚訝的是,該假設(shè)在腺癌存活時(shí)間方面被證明是錯(cuò)誤的。在這里,在與生存時(shí)間相關(guān)的共識(shí)模塊中選擇模塊內(nèi)集線器比邊際薈萃分析有更好的驗(yàn)證成功率(圖 2A)。篩選成功作為所選基因數(shù)量的函數(shù)的詳細(xì)分析(文本 S1中的圖 S10 )證實(shí),在該應(yīng)用中,選擇模塊內(nèi)中樞基因是優(yōu)越的。為了了解在什么情況下模塊內(nèi)樞紐選擇可以優(yōu)于邊緣薈萃分析,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組注意到腺癌數(shù)據(jù)中的信號(hào)非常微弱:雖然老化和小鼠 TC 應(yīng)用的平均驗(yàn)證成功率約為 0.4 和 0.3(圖 2B 和 2C),腺癌應(yīng)用中的平均驗(yàn)證成功率僅為 0.12 (圖 2A)。有幾個(gè)因素可能導(dǎo)致低信號(hào),例如腺癌活檢樣本的高異質(zhì)性,以及在各種不同的 Affymetrix 和安捷倫平臺(tái)上測(cè)量數(shù)據(jù)的事實(shí)。由于中樞基因選擇僅在弱信號(hào)的應(yīng)用中優(yōu)于邊緣薈萃分析,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組假設(shè)在處理弱信號(hào)時(shí),基于共識(shí)模塊成員資格選擇生物標(biāo)志物可能有一些優(yōu)點(diǎn)。為了進(jìn)一步探索這一點(diǎn),基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組進(jìn)行了如下所述的模擬研究。
模擬研究
為了更好地理解為什么模塊成員的薈萃分析有時(shí)可以(例如,在基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的腺癌應(yīng)用中)導(dǎo)致出色的候選生物標(biāo)志物列表,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組進(jìn)行了一項(xiàng)模擬研究。使用 WGCNA R 包中的基因表達(dá)模擬功能,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組模擬了 8 個(gè)具有相同模塊結(jié)構(gòu)的數(shù)據(jù)集,由 10 個(gè)模塊組成。除了“主”模塊中的基因外,其中一個(gè)大模塊(標(biāo)記為 1)還包含 3 個(gè)小子模塊。子模塊與主模塊的區(qū)別不足以通過(guò)模塊識(shí)別過(guò)程識(shí)別為單獨(dú)的模塊。
基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組模擬了兩個(gè)數(shù)量性狀。先進(jìn)個(gè)特征被模擬為與實(shí)際數(shù)據(jù)中可能代表路徑或過(guò)程的模塊弱關(guān)聯(lián)。具體來(lái)說(shuō),基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組模擬了與模塊 eigengene的弱關(guān)聯(lián)(相關(guān)性)。因此,性狀與單個(gè)模塊基因的關(guān)聯(lián)是嘈雜的,但賊相關(guān)的基因也應(yīng)該與特征基因高度相關(guān),即具有高模塊成員資格。在這個(gè)模擬中(可能在涉及保留模塊的真實(shí)數(shù)據(jù)中),模塊成員比基因-性狀關(guān)聯(lián)更好地保留。因此,在本模擬研究中,選擇模塊內(nèi)集線器(模塊成員的元分析)優(yōu)于標(biāo)準(zhǔn)邊際元分析(圖 3A)。
圖 3:Meta分析方法的基因篩選成功的模擬研究
條形圖顯示了在具有 2 個(gè)不同特征的模擬數(shù)據(jù)中各種薈萃分析方法的驗(yàn)證成功。連續(xù)臨床特征 1 與模塊特征基因弱相關(guān),該模塊特征基因在實(shí)際數(shù)據(jù)中可能代表通路的狀態(tài)。在這種情況下,模塊成員的薈萃分析在識(shí)別經(jīng)過(guò)驗(yàn)證的基因方面優(yōu)于邊緣薈萃分析。相比之下,臨床特征 2 被模擬為與已識(shí)別模塊之一的小子模塊的特征基因密切相關(guān)。在這里,邊際元分析優(yōu)于模塊成員的元分析。類似于圖 2,每個(gè)條形圖總結(jié)了每個(gè)模擬性狀的相應(yīng)薈萃分析方法的基因篩選成功率。對(duì)于每種薈萃分析方法,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組根據(jù)該方法對(duì)基因進(jìn)行排名并保留前 50 個(gè)基因。基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組將基因篩選成功定義為這些前 50 個(gè)基因與獨(dú)立驗(yàn)證數(shù)據(jù)集中感興趣的性狀的平均相關(guān)性,在每個(gè)應(yīng)用程序中的驗(yàn)證集上取平均值。每個(gè)條形代表基因篩選成功;誤差條給出了前 50 個(gè)基因中觀察到的基因-性狀相關(guān)性的相應(yīng)標(biāo)準(zhǔn)偏差。
第二個(gè)數(shù)量性狀以類似的方式模擬,但有兩個(gè)重要區(qū)別。首先,特征被模擬為與大模塊 1 的子模塊之一相關(guān)。其次,(子)模塊-特征關(guān)聯(lián)被模擬為更強(qiáng)。在這種情況下,大模塊 1 將被選為與臨床特征賊高度相關(guān)的模塊。然而,由于 (1) 大模塊中具有賊高模塊成員資格的基因不是與性狀賊密切相關(guān)的基因,并且 (2) 信號(hào)(即基因-性狀相關(guān)性)很強(qiáng),因此模塊成員資格的選擇不是賊優(yōu)策略,邊際元分析優(yōu)于模塊成員元分析(圖 3B)。
基因檢測(cè)位點(diǎn)選擇的正確性與全面性分析及共識(shí)
本文描述了以下與樞紐基因選擇何時(shí)比通過(guò)與性狀邊緣關(guān)聯(lián)進(jìn)行選擇更可取的問(wèn)題相關(guān)的結(jié)果。首先,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組表明,關(guān)于整個(gè)網(wǎng)絡(luò)連接性(等式 14)定義的中心基因通常對(duì)由高等生物數(shù)據(jù)構(gòu)建的相關(guān)網(wǎng)絡(luò)不感興趣。這一發(fā)現(xiàn)強(qiáng)調(diào)了關(guān)注模塊化集線器的重要性。重新審視低等生物(例如酵母)中的網(wǎng)絡(luò)分析表明,即使對(duì)于低等生物,模塊內(nèi)集線器也比整個(gè)網(wǎng)絡(luò)集線器更重要。
其次,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組表明,在相關(guān)模塊中選擇模塊內(nèi)集線器通常會(huì)導(dǎo)致基因列表具有更清晰的生物學(xué)注釋(通常使用功能富集分析進(jìn)行評(píng)估)。這與研究與感興趣的性狀相關(guān)的候選生物過(guò)程有關(guān)。
第三,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組表明邊際薈萃分析在 3 個(gè)應(yīng)用程序中的 2 個(gè)應(yīng)用程序中導(dǎo)致基因-性狀關(guān)聯(lián)的卓越驗(yàn)證成功(可重復(fù)性)。這支持了標(biāo)準(zhǔn)邊緣方法通常更適合生物標(biāo)志物發(fā)現(xiàn)的說(shuō)法。該規(guī)則的一個(gè)例外是腺癌應(yīng)用,其中基于與細(xì)胞增殖模塊相關(guān)的模塊成員資格(中心基因狀態(tài))選擇生物標(biāo)志物可以在獨(dú)立數(shù)據(jù)集中獲得出色的驗(yàn)證成功。對(duì)于癌癥生物學(xué)家來(lái)說(shuō),增殖基因與癌癥結(jié)果相關(guān)并不奇怪,這就是為什么癌癥研究(如)強(qiáng)調(diào)他們關(guān)注模塊內(nèi)中樞基因而不是整個(gè)網(wǎng)絡(luò)中樞的原因。
雖然在生物學(xué)上很直觀,但很難從統(tǒng)計(jì)學(xué)上理解為什么選擇模塊內(nèi)集線器作為生物標(biāo)志物可以勝過(guò)邊際關(guān)聯(lián)選擇。為了解決這個(gè)問(wèn)題,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組報(bào)告了模擬研究,描述了邊緣關(guān)聯(lián)弱且嘈雜的場(chǎng)景,而模塊成員(和中心基因狀態(tài))在訓(xùn)練和驗(yàn)證數(shù)據(jù)集之間得到了很好的保留。在這個(gè)模擬場(chǎng)景中,邊際薈萃分析統(tǒng)計(jì)數(shù)據(jù)容易發(fā)現(xiàn)誤報(bào),而與保留模塊相關(guān)的模塊成員資格攜帶更多可重現(xiàn)的信息。
評(píng)估基因列表的生物富集的方法需要小心避免在選擇富集類別作為金標(biāo)準(zhǔn)之前首先查看富集結(jié)果而產(chǎn)生的偏差。例如,如果一個(gè)人首先為共識(shí)模塊確定了賊重要的 GO 類別,然后將該 GO 類別用作評(píng)估通過(guò)標(biāo)準(zhǔn)邊緣薈萃分析技術(shù)?;诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組的研究通過(guò)關(guān)注文獻(xiàn)中先驗(yàn)已知的已確認(rèn) GO 類別并通過(guò)其模塊特征基因與性狀之間的相關(guān)性選擇模塊來(lái)避免這種偏見(jiàn)。具體來(lái)說(shuō)。這反映了生長(zhǎng)、增殖的腫瘤通常與較短的患者生存期相關(guān)。選擇相關(guān)模塊(模塊 2)是因?yàn)槠涮卣骰蚺c肺癌數(shù)據(jù)集的生存時(shí)間相關(guān)性賊高(文本 S1中的圖 S2 )。賊后,還可以將相關(guān)共識(shí)模塊的賊高富集項(xiàng)(詳見(jiàn)表 S1)與邊緣薈萃分析確定的基因的賊高富集項(xiàng)(表 S2)。在這種情況下,頂部富集的術(shù)語(yǔ)非常相似(都與細(xì)胞周期有關(guān)),但通過(guò)模塊成員元分析選擇的基因的富集要高得多。因此,即使通過(guò)邊際分析選擇的基因的富集度來(lái)選擇黃金標(biāo)準(zhǔn),模塊成員的薈萃分析仍然會(huì)導(dǎo)致更高的富集度。
應(yīng)用 3(小鼠的總膽固醇)強(qiáng)調(diào)了當(dāng)沒(méi)有明確的黃金標(biāo)準(zhǔn)并且多個(gè)模塊與一個(gè)性狀密切相關(guān)時(shí)出現(xiàn)的額外挑戰(zhàn)。基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組選擇的黃金標(biāo)準(zhǔn)(免疫系統(tǒng)過(guò)程)被賊重要的相關(guān)模塊捕獲。但是可能還有其他對(duì) TC 很重要的功能類別可能會(huì)被其他強(qiáng)關(guān)聯(lián)模塊捕獲。從這個(gè)意義上說(shuō),沒(méi)有明確的黃金標(biāo)準(zhǔn)和/或具有多個(gè)特征相關(guān)模塊的應(yīng)用程序在將網(wǎng)絡(luò)方法與標(biāo)準(zhǔn)邊緣方法進(jìn)行比較時(shí)需要判斷調(diào)用。
邊際薈萃分析方法的討論
本文討論的邊際薈萃分析方法包括標(biāo)準(zhǔn)薈萃分析統(tǒng)計(jì)方法,例如基于組合 Z 統(tǒng)計(jì)量(或等效地使用逆正態(tài)方法)的 Stouffer 方法,以及聚合序數(shù)的基于Rank的薈萃分析技術(shù)變量重要性的度量。當(dāng) (1) 有大量變量可用時(shí)和 (2) 當(dāng)每個(gè)基礎(chǔ)數(shù)據(jù)集中的顯著性檢驗(yàn)很困難時(shí)(例如,由于數(shù)據(jù)中存在可能導(dǎo)致過(guò)度分散或分散不足)。特別是,基于等級(jí)的方法非常適合網(wǎng)絡(luò)中心性(或其他網(wǎng)絡(luò)指數(shù))的元分析,因?yàn)橥ǔky以定義和計(jì)算此類數(shù)量的統(tǒng)計(jì)顯著性。例如,
文獻(xiàn)中已經(jīng)描述了許多基于等級(jí)的薈萃分析方法,例如 。這些方法中的大多數(shù)依賴于計(jì)算量大的置換測(cè)試。相比之下,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的 rankPvalue 方法(和 R 函數(shù))利用計(jì)算快速的漸近測(cè)試程序,這些程序要么基于均勻分布的卷積(產(chǎn)生 Rank 方法),要么依賴中心極限定理(產(chǎn)生 Scale方法,等式 5 )。所有基于排名的元分析方法的缺點(diǎn)包括它們需要多個(gè)數(shù)據(jù)集(至少 4 個(gè)數(shù)據(jù)集)和大量變量(如果不是數(shù)千個(gè),也有數(shù)百個(gè))。
基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的應(yīng)用和模擬表明,當(dāng)這些方法對(duì)數(shù)據(jù)集使用相同的權(quán)重選擇時(shí),rankPvalue 方法(Scale 和 Rank 方法)導(dǎo)致的結(jié)果與 Stouffer 方法的結(jié)果大致相當(dāng)?;诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組的結(jié)果沒(méi)有提供關(guān)于數(shù)據(jù)集的三種權(quán)重選擇(常數(shù)、自由度或平方根權(quán)重)中的哪一種導(dǎo)致賊高驗(yàn)證成功的結(jié)論性指導(dǎo)。盡管在某些假設(shè)下理論上賊優(yōu)選擇是平方根權(quán)重但在實(shí)踐中可能無(wú)法滿足該結(jié)果的假設(shè)。
雖然薈萃分析權(quán)重的選擇顯然對(duì)生成的基因列表有顯著影響,但它并不影響基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的應(yīng)用和模擬的主要結(jié)論:標(biāo)準(zhǔn)邊際薈萃分析的選擇與共識(shí)模塊中模塊內(nèi)集線器的選擇有比選擇權(quán)重方案的效果要明顯得多。
Hub基因選擇方法的討論
模塊內(nèi)樞紐基因的選擇需要一些判斷。即使在單個(gè)數(shù)據(jù)集(和單個(gè)網(wǎng)絡(luò))的情況下,數(shù)據(jù)分析師也必須在模塊內(nèi)連接(等式 15)和模塊成員資格(等式 19)之間做出決定。幸運(yùn)的是,可以從理論上和經(jīng)驗(yàn)上證明這兩種測(cè)量方法通常密切相關(guān)。這證明了基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組對(duì)單一措施的關(guān)注,. 與模塊內(nèi)連接相比,模塊成員的優(yōu)勢(shì)在于通過(guò)相關(guān)性定義,這使得相關(guān) p 值的計(jì)算變得簡(jiǎn)單。反過(guò)來(lái),這使得適用于相關(guān)性檢驗(yàn)的標(biāo)準(zhǔn)薈萃分析方法。
在基于多個(gè)獨(dú)立數(shù)據(jù)集的共識(shí)網(wǎng)絡(luò)分析的情況下,情況變得更加復(fù)雜。由于每個(gè)數(shù)據(jù)集對(duì)應(yīng)一個(gè)網(wǎng)絡(luò),因此每個(gè)數(shù)據(jù)集都有一個(gè)度量值。為了跨網(wǎng)絡(luò)結(jié)合這些相關(guān)性度量,即達(dá)成一致的度量,可以再次將元分析技術(shù)應(yīng)用于用于定義的相關(guān)性測(cè)試。作為本文的一部分,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組評(píng)估了應(yīng)用于所有輸入數(shù)據(jù)集的性能元分析方法。除了 Stouffer 的方法優(yōu)于基于等級(jí)的薈萃分析的腺癌應(yīng)用外,這里考慮的所有方法的性能都相似。
邊際薈萃分析只是選擇具有賊顯著 meta-p 值的基因;這些基因不一定彼此高度相關(guān)。相比之下,選擇模塊內(nèi)中樞基因的網(wǎng)絡(luò)篩選方法通常會(huì)導(dǎo)致其成員具有相對(duì)較高的成對(duì)相關(guān)性的基因列表。
限制
基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的研究有一些局限性。首先,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的應(yīng)用涉及高等生物中的相關(guān)網(wǎng)絡(luò)。在其他類型的網(wǎng)絡(luò)中,例如信息網(wǎng)絡(luò)、低等生物中的蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)等,全網(wǎng)絡(luò)樞紐顯然非常重要。
其次,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的分析只考慮了有限數(shù)量的標(biāo)準(zhǔn)邊際薈萃分析方法和基于網(wǎng)絡(luò)的方法。雖然基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的結(jié)果很可能也可以推廣到其他邊際方法,但空間限制不允許對(duì)文獻(xiàn)中描述的許多方法進(jìn)行全面評(píng)估。特別是,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組沒(méi)有評(píng)估研究已知生物標(biāo)志物之間網(wǎng)絡(luò)連接的混合方法。
第三,這兩種基于排名的薈萃分析方法通常都存在需要多個(gè)(至少 4 個(gè))數(shù)據(jù)集的局限性。特別是,Rank 方法核心的漸近近似在處理少于 4 個(gè)獨(dú)立數(shù)據(jù)集時(shí)會(huì)失效。Scale 排序方法所需的數(shù)據(jù)集數(shù)量取決于基礎(chǔ)序數(shù)變量的分布:雖然它(和中心極限定理)不假設(shè)正態(tài)分布的序數(shù)變量,但如果應(yīng)用近似正態(tài),則需要更少的數(shù)據(jù)集。
第四,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組已經(jīng)對(duì)存在單個(gè)性狀相關(guān)模塊的情況進(jìn)行了比較,即僅根據(jù)單個(gè)模塊選擇中心基因時(shí)的情況。在某些應(yīng)用程序中,可能有幾個(gè)與特征相關(guān)的模塊(例如,一個(gè)與特征正相關(guān),一個(gè)與特征負(fù)相關(guān)),數(shù)據(jù)分析師需要決定選擇哪個(gè)模塊。在實(shí)踐中,數(shù)據(jù)分析師當(dāng)然會(huì)考慮基因本體類別或細(xì)胞標(biāo)記的功能富集,以找到生物學(xué)上可信的模塊。
第五,模塊內(nèi)集線器的選擇關(guān)鍵取決于在可能非常不同的數(shù)據(jù)集中識(shí)別相關(guān)的特征相關(guān)共識(shí)模塊。只有當(dāng)模塊存在于所有分析的數(shù)據(jù)集中(即模塊是穩(wěn)健的)并且它與臨床特征的關(guān)系是可重現(xiàn)的時(shí),模塊成員的元分析才能成功。雖然許多已發(fā)表的文章描述了與 trait 相關(guān)的模塊,但并不高效可以找到與 trait 相關(guān)的共識(shí)模塊。特別是,如果輸入數(shù)據(jù)是在不同平臺(tái)上測(cè)量的,或者由于其他原因不兼容,則可能不存在共識(shí)模塊。通過(guò)研究均值表達(dá)的一致性、整個(gè)網(wǎng)絡(luò)的連通性來(lái)評(píng)估輸入數(shù)據(jù)集的兼容性通常很有用,并進(jìn)行模塊保存分析。在基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的情況下,不需要模塊保存分析,因?yàn)槊總€(gè)應(yīng)用程序中都存在相關(guān)的共識(shí)模塊。
第六,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組對(duì)模塊內(nèi)集線器的關(guān)注不應(yīng)誤導(dǎo)數(shù)據(jù)分析師忽略關(guān)于模塊基因的先驗(yàn)知識(shí)或忽略補(bǔ)充數(shù)據(jù)。如果對(duì)調(diào)節(jié)關(guān)系感興趣,模塊的轉(zhuǎn)錄調(diào)節(jié)因子(例如,轉(zhuǎn)錄因子)可能比模塊內(nèi)樞紐更值得后續(xù)研究的目標(biāo)。
基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的結(jié)果與監(jiān)管網(wǎng)絡(luò)的剖析沒(méi)有直接關(guān)系。重要文章描述和評(píng)估監(jiān)管網(wǎng)絡(luò)推理程序,例如。特別是,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組不考慮如何整合共表達(dá)、蛋白質(zhì)-蛋白質(zhì)相互作用和其他類型的數(shù)據(jù)。基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組再次強(qiáng)調(diào),先前的生物學(xué)知識(shí)和補(bǔ)充數(shù)據(jù)對(duì)于為后續(xù)研究確定基因的優(yōu)先級(jí)是非常寶貴的。
第七,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的結(jié)果適用于無(wú)向圖的相關(guān)網(wǎng)絡(luò)。有大量關(guān)于構(gòu)建有向和因果網(wǎng)絡(luò)模型的網(wǎng)絡(luò)推理程序的文獻(xiàn)。
雖然基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的結(jié)果表明基于網(wǎng)絡(luò)的元分析(稱為共識(shí)模塊分析)在識(shí)別相關(guān)生物過(guò)程方面優(yōu)于標(biāo)準(zhǔn)邊際方法,但值得強(qiáng)調(diào)的是,每個(gè)應(yīng)用程序和數(shù)據(jù)集都需要仔細(xì)評(píng)估所有可用的分析選項(xiàng)。
方法
標(biāo)準(zhǔn)薈萃分析方法
Meta 分析是一種成熟的技術(shù),用于匯總來(lái)自不同研究的數(shù)據(jù) 。它越來(lái)越多地用于更充分地利用快速積累的高通量生物數(shù)據(jù)集(例如,基因表達(dá)、甲基化和基因分型),因?yàn)閰R集來(lái)自高通量實(shí)驗(yàn)的原始數(shù)據(jù)通常是不可行的?;蚪M學(xué)中薈萃分析的一個(gè)典型用途是將幾項(xiàng)研究結(jié)合起來(lái),其中一項(xiàng)研究評(píng)估臨床特征(例如,疾病狀態(tài)或存活時(shí)間)與通過(guò)高通量方法測(cè)量的基因表達(dá)之間的關(guān)聯(lián)。專門為基因表達(dá)數(shù)據(jù)的邊緣薈萃分析開(kāi)發(fā)了多種方法并進(jìn)行了比較,例如,在中。例如,在中可以找到關(guān)于基因表達(dá)數(shù)據(jù)元分析中出現(xiàn)的問(wèn)題的討論,以及對(duì)多個(gè)應(yīng)用程序的引用。在這里,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組簡(jiǎn)要概述了本文中使用的薈萃分析方法;對(duì)文獻(xiàn)中提出的許多方法的全面審查超出了本文的范圍。
Fisher 提出了賊早的薈萃分析技術(shù)之一。給定獨(dú)立的統(tǒng)計(jì)檢驗(yàn)及其相關(guān)的 p 值,一個(gè)構(gòu)成檢驗(yàn)統(tǒng)計(jì)量
(1) 在原假設(shè)下,服從具有自由度的分布。通過(guò)將測(cè)試統(tǒng)計(jì)定義為
(2) 其中是一個(gè)合適的函數(shù),并且是每個(gè)研究的(非負(fù))權(quán)重。對(duì)于幾種不同的選擇和的零分布是已知的。仔細(xì)選擇并可以導(dǎo)致具有更好功效的薈萃分析測(cè)試。基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組現(xiàn)在討論本文中使用的和的三種選擇。
Stouffer 等人提出了先進(jìn)選擇,也稱為逆正態(tài)法。它基于使用逆正態(tài)分布從相應(yīng) p 值獲得的單個(gè)測(cè)試 Z 統(tǒng)計(jì)量。然后形成檢驗(yàn)統(tǒng)計(jì)量
(3) 在零下服從正態(tài)分布。該測(cè)試稱為 Stouffer 測(cè)試(權(quán)重相同)。
Stouffer 的方法被推廣到 Mosteller 和 Bush 和 Liptak 的各個(gè)測(cè)試中允許不同的權(quán)重。給定正權(quán)重,形成加權(quán) Z 統(tǒng)計(jì)量
(4) 統(tǒng)計(jì)再次遵循標(biāo)準(zhǔn)正態(tài)分布。權(quán)重的賊佳選擇取決于每項(xiàng)研究中估計(jì)的效應(yīng)大小和標(biāo)準(zhǔn)誤差。假設(shè)所有研究中的樣本都是從同一個(gè)池中隨機(jī)抽取的,理論上賊優(yōu)的權(quán)重選擇與每項(xiàng)研究中樣本數(shù)量的平方根成正比, ?;诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組將此方法稱為具有平方根權(quán)重的 Stouffer 方法。在這項(xiàng)工作中,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組還研究了設(shè)置并將這種方法稱為具有自由度 (dof) 權(quán)重的 Stouffer 方法。(基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組通過(guò)樣本數(shù)量來(lái)近似每個(gè)研究的自由度。)。
R 軟件實(shí)現(xiàn)
本文中描述的邊際元分析方法在 metaAnalysis 函數(shù)中實(shí)現(xiàn),該函數(shù)是用于 R 語(yǔ)言和環(huán)境的更新的、免費(fèi)可用的包 WGCNA 的一部分。盡管基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的示例僅涉及連續(xù)特征,但該函數(shù)還可以使用 t 檢驗(yàn)或 Kruskal-Wallis Rank和檢驗(yàn)來(lái)分析二元特征。用戶可以為各個(gè)數(shù)據(jù)集指定自定義權(quán)重以及此處描述的 3 種標(biāo)準(zhǔn)權(quán)重選擇。穩(wěn)健的相關(guān)性(特別是雙權(quán)中間相關(guān)性) 可用于有效抑制潛在的異常值測(cè)量??蛇x地,Scale 和 Rank 薈萃分析也可以自動(dòng)執(zhí)行,使 metaAnalysis 功能成為計(jì)算大量邊緣薈萃分析統(tǒng)計(jì)數(shù)據(jù)的便捷“一站式”選項(xiàng)。
rankPvalue Meta分析方法和R函數(shù)
Stouffer 方法要求輸入 Z 統(tǒng)計(jì)量,在零值下,正態(tài)分布均值為 0,方差為 1。雖然 Z 統(tǒng)計(jì)量很容易為許多標(biāo)準(zhǔn)關(guān)聯(lián)測(cè)試計(jì)算,但它們不適用于許多常見(jiàn)的網(wǎng)絡(luò)指數(shù),例如全網(wǎng)或模塊內(nèi)連接。即使可以計(jì)算 Z 統(tǒng)計(jì)量,由于技術(shù)影響或樣本之間的隱藏關(guān)系(例如人口分層),它們的實(shí)際零分布也可能與理論分布不同。因此,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組現(xiàn)在描述一種稱為 rankPvalue 的方法,該方法使用變量重要性的一般序數(shù)度量作為輸入。下面依次介紹 rankPvalue 方法有 2 個(gè)變體。
Rank 變體首先根據(jù)輸入統(tǒng)計(jì)信息對(duì)每個(gè)集合(由索引標(biāo)記)中的每個(gè)變量(由索引標(biāo)記)分別進(jìn)行排名。然后將范圍從 1 到非缺失觀察數(shù)的等級(jí)轉(zhuǎn)換為百分等級(jí)。在零值下,觀察到的百分位等級(jí)在允許值上遵循均勻分布,可以通過(guò)連續(xù)均勻分布來(lái)近似。然后將檢驗(yàn)統(tǒng)計(jì)量形成為加權(quán)和
(5) 公式 (5) 與公式 4類似,在本文中基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組使用與 Stouffer 方法相同的權(quán)重。在各個(gè)數(shù)據(jù)集之間輸入統(tǒng)計(jì)量的排名之間沒(méi)有關(guān)系的原假設(shè)下,檢驗(yàn)統(tǒng)計(jì)量遵循由均勻分布的卷積給出的分布。使用中心極限定理,人們可以爭(zhēng)辯說(shuō)行和檢驗(yàn)統(tǒng)計(jì)量漸近服從正態(tài)分布。眾所周知,在同分布均勻分布的情況下,收斂到正態(tài)分布的速度非??臁<词怪挥性谳斎胙芯恐?,正態(tài)近似和正確分布之間的差異在實(shí)踐中可以忽略不計(jì)。
Scale 變體遵循類似于 Rank 變體的邏輯,但不是將每個(gè)變量重要性轉(zhuǎn)換為等級(jí),而是將每個(gè)輸入數(shù)據(jù)集中的變量重要性度量縮放為均值 0 和方差 1。薈萃分析測(cè)試統(tǒng)計(jì)量是根據(jù)計(jì)算與用于 Stouffer 方法的權(quán)重相同的等式 4 。中心極限定理再次高效了元分析統(tǒng)計(jì)量的零分布收斂到,但通常收斂速度可能不如基于Rank的元分析統(tǒng)計(jì)量(方程 5)。
Rank 和 Scale 變體都在函數(shù) rankPvalue 中實(shí)現(xiàn),該函數(shù)也包含在 R 的 WGCNA 包中。函數(shù)的輸入是來(lái)自多個(gè)獨(dú)立數(shù)據(jù)集的可變重要性度量和每個(gè)數(shù)據(jù)集的可選權(quán)重。用戶可以選擇是否使用 Rank、Scale 或同時(shí)使用這兩種變量來(lái)計(jì)算薈萃分析 p 值。作為額外的便利,該函數(shù)還可以計(jì)算局部錯(cuò)誤發(fā)現(xiàn)率估計(jì)(q 值)。
加權(quán)相關(guān)網(wǎng)絡(luò)分析
在這里,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組簡(jiǎn)要概述了加權(quán)相關(guān)網(wǎng)絡(luò)分析。一般網(wǎng)絡(luò)由節(jié)點(diǎn)和節(jié)點(diǎn)之間的成對(duì)連接組成。在未加權(quán)網(wǎng)絡(luò)中,連接要么存在要么不存在(等效地,連接強(qiáng)度為 1 或 0)。在加權(quán)網(wǎng)絡(luò)中,每對(duì)節(jié)點(diǎn)都是連接的,連接強(qiáng)度可以取區(qū)間 [0,1] 內(nèi)的任意值。在基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的應(yīng)用程序中,節(jié)點(diǎn)代表測(cè)量變量,例如基因表達(dá)或甲基化譜。
相關(guān)網(wǎng)絡(luò)由代表一組變量(例如,基因表達(dá)、蛋白質(zhì)水平等)的多次測(cè)量(“樣本”)的數(shù)字?jǐn)?shù)據(jù)構(gòu)建。假設(shè)測(cè)量以矩陣形式組織,其中列索引( ) 對(duì)應(yīng)于變量,行索引 ( ) 對(duì)應(yīng)于樣本測(cè)量?;诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組將第 -th 列稱為跨樣本測(cè)量的第 -th節(jié)點(diǎn)配置文件。例如,如果包含來(lái)自表達(dá)微陣列的數(shù)據(jù),列對(duì)應(yīng)于基因(或微陣列探針),行對(duì)應(yīng)于微陣列,條目報(bào)告轉(zhuǎn)錄本豐度測(cè)量?;诨虮磉_(dá)數(shù)據(jù)的相關(guān)網(wǎng)絡(luò)通常被稱為基因共表達(dá)網(wǎng)絡(luò)。
基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組考慮有效由它們的鄰接矩陣指定的無(wú)向網(wǎng)絡(luò),一個(gè)正方形對(duì)稱矩陣,其元素編碼變量和之間的連接強(qiáng)度。形式上,鄰接矩陣必須是方陣并滿足以下性質(zhì):
在相關(guān)網(wǎng)絡(luò)中,鄰接是由節(jié)點(diǎn)配置文件的成對(duì)相關(guān)性構(gòu)成的。
構(gòu)建相關(guān)網(wǎng)絡(luò)的一個(gè)重要選擇是處理強(qiáng)負(fù)相關(guān)。在有符號(hào)網(wǎng)絡(luò)中,負(fù)相關(guān)變量被認(rèn)為是不相關(guān)的。相反,在無(wú)符號(hào)網(wǎng)絡(luò)中,具有高負(fù)相關(guān)性的變量被認(rèn)為是連接的(與具有高正相關(guān)性的變量具有相同的強(qiáng)度)。有符號(hào)加權(quán)鄰接矩陣可以定義如下
和一個(gè)未簽名的鄰接
選擇該參數(shù)以充分抑制通常由噪聲引起的低相關(guān)性。中描述了用于選擇的一般啟發(fā)式過(guò)程。簽名網(wǎng)絡(luò)和未簽名網(wǎng)絡(luò)的值通常效果很好。簽名網(wǎng)絡(luò)與未簽名網(wǎng)絡(luò)的選擇取決于應(yīng)用程序;有符號(hào)和無(wú)符號(hào)加權(quán)基因網(wǎng)絡(luò)均已成功用于基因表達(dá)分析。
基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組發(fā)現(xiàn)定義鄰接矩陣的兩個(gè)函數(shù)(變換)很方便。首先,拓?fù)渲丿B矩陣(TOM)定義為
(11) 可以證明該矩陣也是一個(gè)鄰接矩陣,即也滿足性質(zhì)(6)-(8)。
其次,鄰接對(duì)應(yīng)的相異矩陣定義為
(12) 許多網(wǎng)絡(luò)分析的一個(gè)主要步驟是識(shí)別模塊?;诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組將模塊定義為一組高度相關(guān)(或者,在網(wǎng)絡(luò)語(yǔ)言中,強(qiáng)互連)Var.為此,可以定義成對(duì)節(jié)點(diǎn)相異性度量,該度量可用作聚類過(guò)程中的輸入。在基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的示例中,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組使用由下式給出的相異性
(13) 作為平均鏈接層次聚類的輸入。模塊對(duì)應(yīng)于生成的層次聚類樹(shù)(樹(shù)狀圖)的分支,并使用動(dòng)態(tài)樹(shù)切割程序進(jìn)行識(shí)別。
網(wǎng)絡(luò)集線器:具有高連接性的節(jié)點(diǎn)
在許多網(wǎng)絡(luò)中,從航空連接網(wǎng)絡(luò)到 Internet 再到一些生物網(wǎng)絡(luò),賊重要的節(jié)點(diǎn)往往是那些具有大量連接的節(jié)點(diǎn)。更正式地說(shuō),給定一個(gè)由鄰接矩陣 指定的網(wǎng)絡(luò),節(jié)點(diǎn)的全網(wǎng)絡(luò)連通性定義為
(14) 也就是說(shuō),作為與網(wǎng)絡(luò)中所有其他節(jié)點(diǎn)的連接強(qiáng)度的總和。全網(wǎng)連通性高的節(jié)點(diǎn)(相對(duì)于網(wǎng)絡(luò)中的其他節(jié)點(diǎn))稱為全網(wǎng)樞紐節(jié)點(diǎn)(基因網(wǎng)絡(luò)中的樞紐基因)。全網(wǎng)連通性和全網(wǎng)集線器節(jié)點(diǎn)通常簡(jiǎn)稱為連通性和集線器節(jié)點(diǎn)。
雖然整個(gè)網(wǎng)絡(luò)連接在許多情況下都很重要,但基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的結(jié)果和其他人的結(jié)果表明,對(duì)于大型復(fù)雜網(wǎng)絡(luò)中的特定功能重要的節(jié)點(diǎn)(例如,基因)通常不在整個(gè)網(wǎng)絡(luò)中集線器。然而,通常整個(gè)網(wǎng)絡(luò)的一個(gè)子網(wǎng)絡(luò)與特定功能相關(guān)聯(lián),并且與該功能賊相關(guān)的節(jié)點(diǎn)通常在相關(guān)子網(wǎng)絡(luò)內(nèi)高度連接。在這項(xiàng)工作中,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組將相關(guān)的子網(wǎng)絡(luò)識(shí)別為與所研究的臨床特征相關(guān)的模塊。相應(yīng)地,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組定義模塊內(nèi)節(jié)點(diǎn)的模塊內(nèi)連接性標(biāo)記為
(15) 也就是說(shuō),作為模塊內(nèi)連接強(qiáng)度的總和。具有高模塊內(nèi)連接性的節(jié)點(diǎn)稱為模塊內(nèi)集線器節(jié)點(diǎn)。
特征節(jié)點(diǎn)總結(jié)了一個(gè)相關(guān)模塊
許多模塊構(gòu)建方法導(dǎo)致相關(guān)網(wǎng)絡(luò)模塊由高度相關(guān)的變量組成。對(duì)于這樣的模塊,可以使用代表變量總結(jié)相應(yīng)的模塊向量,在網(wǎng)絡(luò)術(shù)語(yǔ)中也稱為代表節(jié)點(diǎn)配置文件。為了定義模塊的代表性配置文件,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組使用標(biāo)準(zhǔn)化模塊矩陣的奇異值分解 (SVD) 。模塊的矩陣由表示,其中索引對(duì)應(yīng)于樣本,索引對(duì)應(yīng)于模塊變量(網(wǎng)絡(luò)的節(jié)點(diǎn))。為了便于表示,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組將刪除模塊索引; 讀者應(yīng)該記住,下面的討論是針對(duì)特定模塊的。在定義模塊特征節(jié)點(diǎn)的先進(jìn)步中,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組將每個(gè)變量(列)標(biāo)準(zhǔn)化為均值和方差 1。這一重要步驟確保特征節(jié)點(diǎn)的定義獨(dú)立于可能受各種技術(shù)影響的每列的整體規(guī)模因素,例如微陣列表達(dá)譜的總體規(guī)模受微陣列探針對(duì)單個(gè)轉(zhuǎn)錄物的敏感性影響。標(biāo)準(zhǔn)化模矩陣的奇異值分解表示為
(16) 其中正交矩陣的列和分別是左奇異向量和右奇異向量。具體來(lái)說(shuō),是具有正交列的矩陣,是正交矩陣,是奇異值的對(duì)角矩陣,。矩陣和由下式給出
(17) 基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組假設(shè)奇異值以非遞增順序排列。改編自的術(shù)語(yǔ),基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組將先進(jìn)列稱為模塊特征節(jié)點(diǎn)(在基因共表達(dá)或共甲基化網(wǎng)絡(luò)中也稱為模塊特征基因):
(18) 由于每個(gè)奇異向量的方向(即符號(hào))是未定義的,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組通過(guò)將每個(gè)特征節(jié)點(diǎn)約束為與模塊基因的平均基因表達(dá)正相關(guān)來(lái)固定每個(gè)特征節(jié)點(diǎn)的方向。基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組對(duì)特征節(jié)點(diǎn)的定義假設(shè)賊高奇異值是非退化的,模矩陣是非退化的,也就是說(shuō),基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組假設(shè)奇異值是在實(shí)踐中,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組發(fā)現(xiàn)模特征節(jié)點(diǎn)通常解釋了超過(guò) 50% 的方差的模塊表達(dá)式。
基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組注意到,也可以使用主成分分析 (PCA) 來(lái)定義特征節(jié)點(diǎn)。在 PCA 中,對(duì)樣本協(xié)方差矩陣執(zhí)行特征值和特征向量分析,樣本協(xié)方差矩陣的元素是節(jié)點(diǎn)輪廓的協(xié)方差,即。得到的特征值和特征向量滿足. 因?yàn)閰f(xié)方差矩陣是對(duì)稱非負(fù)定的,所以所有特征值都是實(shí)數(shù)且非負(fù)的,,并且可以按非遞增順序排序(即,是賊大的特征值)。然后將先進(jìn)個(gè)主成分定義為。因?yàn)槟K矩陣被縮放為均值 0 和方差 1,所以可以證明和先進(jìn)個(gè)左奇異向量(等式 17)僅相差一個(gè)常數(shù),。由于相關(guān)網(wǎng)絡(luò)中模塊摘要配置文件的整體規(guī)模無(wú)關(guān)緊要,因此先進(jìn)個(gè)主成分提供了與特征節(jié)點(diǎn)等效的摘要。
基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組現(xiàn)在簡(jiǎn)要評(píng)論一下右奇異向量?;叵胍幌?,先進(jìn)個(gè)左奇異向量可以解釋為模塊中所有變量的概況(例如,表達(dá)概況)的總結(jié)。相反,先進(jìn)個(gè)右奇異向量可以解釋為樣本表達(dá)譜的總結(jié)。右奇異向量可用于執(zhí)行信號(hào)平衡;細(xì)節(jié)超出了本文的范圍,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組將感興趣的讀者推薦給本書中的第 6.1.1 節(jié)和其中的參考資料。
基于特征節(jié)點(diǎn)的模糊模塊隸屬度測(cè)度
模塊特征節(jié)點(diǎn)可用于定義模塊中變量的模塊成員資格的定量測(cè)量,表示為:
(19) node 的配置文件在哪里。模塊成員資格在于并指定節(jié)點(diǎn)與模塊的接近程度。該數(shù)量有時(shí)被稱為基于簽名模塊特征基因的連通性。在基因共表達(dá)網(wǎng)絡(luò)中,由于模塊子網(wǎng)絡(luò)的近似可分解性,模塊成員資格和模塊內(nèi)連接往往高度相關(guān)。
基于特征節(jié)點(diǎn)的模塊-特征關(guān)聯(lián)度量
模塊特征節(jié)點(diǎn)也產(chǎn)生了模塊-特征關(guān)聯(lián)的方便度量。給定一個(gè)數(shù)量性狀和一個(gè)標(biāo)有特征節(jié)點(diǎn)的模塊,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組將模塊特征節(jié)點(diǎn)顯著性(有時(shí)也稱為模塊顯著性)定義為特征和特征基因的相關(guān)性,
(20) 模塊特征節(jié)點(diǎn)的意義在于。接近 1 (-1) 的值表示模塊與特征非常強(qiáng)烈地正(負(fù))相關(guān),而接近 0 的值表示線性關(guān)聯(lián)很弱。由于模塊顯著性被定義為相關(guān)性,因此可以直接通過(guò)相應(yīng)的相關(guān)性檢驗(yàn) p 值來(lái)量化其統(tǒng)計(jì)顯著性。因此,模塊特征節(jié)點(diǎn)顯著性非常適合使用 Stouffer 方法以及基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的 Scale 和 Rank 修改進(jìn)行元分析。
共識(shí)模塊
元分析和相關(guān)技術(shù)的優(yōu)勢(shì)早已在網(wǎng)絡(luò)分析中得到承認(rèn)。已經(jīng)開(kāi)發(fā)了幾種用于查找常見(jiàn)子網(wǎng)(有時(shí)稱為模塊)的復(fù)雜算法 。共識(shí)模塊被定義為可以在多個(gè)網(wǎng)絡(luò)中找到的高度連接的節(jié)點(diǎn)集。尋找共識(shí)模塊的不同方法的比較和評(píng)估超出了基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的范圍,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組建議讀者參考文獻(xiàn)。
由于基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的重點(diǎn)是使用共識(shí)模塊來(lái)選擇基因的效用,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組將注意力限制在 WGCNA 框架內(nèi)的單一共識(shí)模塊檢測(cè)方法 。共識(shí)模塊是使用合適的共識(shí)相異性來(lái)識(shí)別的,該相異性用作聚類過(guò)程的輸入,類似于在單個(gè)集合中識(shí)別模塊的過(guò)程。為了簡(jiǎn)化基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的討論,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組為一組矩陣引入以下按分量分位數(shù)函數(shù):
(21) 因此,分位數(shù)矩陣的每個(gè)分量都是各個(gè)輸入矩陣中相應(yīng)分量的給定分位數(shù) ( )。使用這種表示法,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組將與輸入網(wǎng)絡(luò)和分位數(shù)相對(duì)應(yīng)的共識(shí)網(wǎng)絡(luò)定義為
(22) 當(dāng),即分位數(shù)賊小時(shí),共識(shí)網(wǎng)絡(luò)有一個(gè)非常簡(jiǎn)單的解釋:兩個(gè)變量與所有輸入網(wǎng)絡(luò)共有的強(qiáng)度相關(guān)(因此命名為“共識(shí)”)。
為了識(shí)別共識(shí)模塊,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組使用標(biāo)準(zhǔn)的模塊識(shí)別程序,具有不同的
(23) 基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組再次強(qiáng)調(diào),這個(gè)過(guò)程只有在輸入網(wǎng)絡(luò)的變量相同時(shí)才有意義。
共識(shí)模塊中模塊成員的元分析
一旦識(shí)別出共識(shí)模塊,就可以在每個(gè)輸入數(shù)據(jù)集中計(jì)算它們的特征基因(方程式 18 ) 。具體來(lái)說(shuō),用 表示集合中模塊的特征基因。對(duì)于每個(gè)節(jié)點(diǎn),基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組都有模塊成員的度量,即
(24) 總結(jié)這些措施的幾種替代方式是可能的。首先,由于定義為相關(guān)性,因此可以將其轉(zhuǎn)換為 Z 統(tǒng)計(jì)量并使用上述標(biāo)準(zhǔn)元分析技術(shù)(等式 3和4),以及基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的 Scale 和 Rank 修改?;诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組在報(bào)告的結(jié)果中使用這些方法。
為了完整起見(jiàn),基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組還描述了從單個(gè)值派生的 Z 統(tǒng)計(jì)量的薈萃分析的兩種替代方法,它們更簡(jiǎn)單但通常表現(xiàn)不佳。首先,可以應(yīng)用共識(shí)方法并定義共識(shí)模塊成員資格
(25) 其次,還可以定義(加權(quán))均值。給定每個(gè)數(shù)據(jù)集的權(quán)重,
(26) 權(quán)重可以與用于定義各種版本的薈萃分析 Z 統(tǒng)計(jì)的權(quán)重相同,盡管這不是必需的。
共識(shí)模塊成員的元分析是在 WGCNA 包中包含的函數(shù)consensusKME 中實(shí)現(xiàn)的。該函數(shù)提供了一個(gè)與 metaAnalysis 函數(shù)類似的接口,包括各種單獨(dú)的集合權(quán)重選擇、可選的 Scale 和 Rank 元分析的自動(dòng)計(jì)算,以及可選使用穩(wěn)健的相關(guān)性度量。
腺癌數(shù)據(jù)集和網(wǎng)絡(luò)分析
基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組下載了 8 個(gè)獨(dú)立的癌癥數(shù)據(jù)集:4 個(gè)數(shù)據(jù)集在 Affymetrix U133A 微陣列上測(cè)量,分別包含 162、69、73 和 89 個(gè)樣本;51 個(gè)樣品在 Affymetrix U133plus2 微陣列上測(cè)量;在安捷倫全人類基因組寡核苷酸 DNA 微陣列 G4112F 上測(cè)量91 個(gè)樣品 ;81 個(gè)樣品在安捷倫智人 21.6K 定制陣列上測(cè)量;和 49 個(gè)樣品在 Agilent-012391 全人類基因組寡核苷酸微陣列 G4112A 上測(cè)量。每個(gè)數(shù)據(jù)集中的樣本數(shù)量反映了在適用的情況下對(duì)腺癌 (AD) 的限制以及基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組刪除了可能的異常樣本。
由于本研究中存在的 5 個(gè)平臺(tái)之間的微陣列探針不同,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組使用中描述的聚合方法(在 collapseRows 函數(shù)中實(shí)現(xiàn))將探針?biāo)降谋磉_(dá)數(shù)據(jù)“折疊”為基因水平的表達(dá)數(shù)據(jù)。然后,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組只保留了 5 個(gè)平臺(tái)中每個(gè)平臺(tái)上代表的 8655 個(gè)基因的表達(dá)譜。
共識(shí) TOM 被定義為具有百分位數(shù)(即四分位數(shù))的各個(gè) TO 矩陣的共識(shí)(方程式 22 )。共識(shí)模塊是使用中詳述的方法構(gòu)建的,并在上面進(jìn)行了審查。這個(gè)過(guò)程產(chǎn)生了 5 個(gè)模塊。
為了測(cè)量每個(gè)基因或模塊特征基因的生物學(xué)意義,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組首先計(jì)算了生存時(shí)間偏差。然后,基因或模塊特征基因的重要性簡(jiǎn)單地給出為相應(yīng)表達(dá)譜與生存偏差的相關(guān)性。
用于衰老研究的全基因組甲基化數(shù)據(jù)
基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組分析了 3 個(gè)全血 (WB) 甲基化數(shù)據(jù)集和 4 個(gè)區(qū)域特異性腦甲基化數(shù)據(jù)集。甲基化數(shù)據(jù)包括來(lái)自 I 型糖尿病研究的 190 個(gè)樣本來(lái)自大型癌癥研究的健康對(duì)照的 261 個(gè)樣本以及來(lái)自先前衰老研究的 87 個(gè)樣本。4 個(gè)大腦數(shù)據(jù)集新穎在正常人腦表達(dá)和甲基化遺傳學(xué)研究中報(bào)道. 在這里,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組使用甲基化數(shù)據(jù)集來(lái)調(diào)查 150 個(gè)人的額葉皮層、顳葉皮層、腦橋區(qū)域和小腦的全基因組甲基化。去除異常值后,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組保留了 132 個(gè)(額葉皮層)、126 個(gè)(顳葉皮層)、123 個(gè)(腦橋區(qū)域)和 111 個(gè)(小腦)樣本。在 Illumina Infinium HumanMethylation27 BeadChip 上分析了所有 7 個(gè)甲基化數(shù)據(jù)集。
基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組再次使用百分位數(shù)來(lái)定義共識(shí) TOM(等式 22)。共識(shí)模塊識(shí)別產(chǎn)生41個(gè)模塊。與腺癌應(yīng)用相比,此處確定的模塊數(shù)量相對(duì)較多可能是由于個(gè)體共甲基化網(wǎng)絡(luò)的相似性較高。每個(gè)甲基化探針的基因顯著性定義為相應(yīng)甲基化譜與年齡的相關(guān)性。
小鼠肝臟表達(dá)數(shù)據(jù)集
基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組使用 9 個(gè)獨(dú)立的肝臟表達(dá)數(shù)據(jù)集。其中 8 個(gè)數(shù)據(jù)集來(lái)自 3 個(gè)獨(dú)立的 F2 小鼠雜交:2 個(gè)數(shù)據(jù)集,分別來(lái)自 CAST×C57BL/6J 雜交的 141 個(gè)(雌性)和 100 個(gè)(雄性)樣本,表示為 C×B ;來(lái)自 C3H/HeJ×C57BL/6J 在 ApoE 空背景上交叉的 2 個(gè)數(shù)據(jù)集 134(女性)和 124(男性)樣本,表示為 BxH ApoE 4 個(gè)數(shù)據(jù)集 66(B×H 女性),69 (B×H 雄性)、63 個(gè)(H×B 雌性)和 66 個(gè)(H×B 雄性)樣本來(lái)自 C3H/HeJ×C57BL/6J 在野生型背景上的雜交,表示為 BxH wt 。第 9 個(gè)數(shù)據(jù)集包含 196 個(gè)男性樣本,稱為小鼠多樣性小組 (MDP),是一個(gè)基因更多樣化的集合,包含來(lái)自各種實(shí)驗(yàn)室品系和雜交的小鼠. 因?yàn)檫@ 9 個(gè)數(shù)據(jù)集是在各種微陣列平臺(tái)上測(cè)量的,包括定制的安捷倫雙色陣列(所有 F2 交叉)以及 Affymetrix HT 小鼠基因組 430A 陣列(MDP),基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組再次使用函數(shù) collapseRows 來(lái)創(chuàng)建基因水平的表達(dá)數(shù)據(jù),可以在平臺(tái)之間進(jìn)行比較。
與基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的其他應(yīng)用程序一樣,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組使用百分位數(shù)來(lái)定義共識(shí) TOM(等式 22)。共識(shí)模塊識(shí)別產(chǎn)生11個(gè)模塊。每個(gè)基因的基因顯著性定義為基因表達(dá)譜與血漿中總膽固醇測(cè)量值的相關(guān)性。
基因表達(dá)數(shù)據(jù)的模擬
基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組使用 WGCNA R 包中的數(shù)據(jù)模擬功能模擬表達(dá)數(shù)據(jù),其中基因被組織成模塊,將相關(guān)基因組合在一起。基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組首先描述了單個(gè)數(shù)據(jù)集中基因表達(dá)數(shù)據(jù)的模擬。為了模擬表達(dá)數(shù)據(jù)集,首先選擇模塊的數(shù)量和每個(gè)模塊中的基因數(shù)量,以及描述不同模塊的種子特征基因應(yīng)該如何相關(guān)的矩陣。接下來(lái),使用隨機(jī)、正態(tài)分布的“樣本”生成種子模塊特征基因,以使它們的相關(guān)性接近給定的關(guān)聯(lián)矩陣(此步驟在函數(shù) simulationEigengeneNetwork 中實(shí)現(xiàn))。種子特征基因被模擬為彼此之間表現(xiàn)出弱到中等的相關(guān)性,因?yàn)樵诮?jīng)驗(yàn)數(shù)據(jù)中基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組經(jīng)常觀察到不同簇的特征基因是相關(guān)的。對(duì)于每個(gè)模塊, 模塊基因, 由索引 , 標(biāo)記,然后模擬為
(27) 其中“噪聲”分量是隨機(jī)選擇的且獨(dú)立于,并且系數(shù)在和之間均勻分布。為了模擬具有強(qiáng)相關(guān)基因的模塊,基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組使用介于 0.5 和 0.6 之間以及介于 0.8 和 0.95 之間的值。較低的值可用于模擬具有較弱共表達(dá)的模塊。簇外的大多數(shù)基因使用從 中提取的獨(dú)立表達(dá)值進(jìn)行模擬,而根據(jù)公式 27將少數(shù)基因模擬為“近簇基因” ,但范圍從 0 到. 該模擬過(guò)程在函數(shù)simulateDatExpr 中實(shí)現(xiàn),并導(dǎo)致模塊結(jié)構(gòu)通常類似于在實(shí)際數(shù)據(jù)中觀察到的模塊結(jié)構(gòu)。
由于基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的模塊成員元分析方法側(cè)重于共識(shí)模塊,因此基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組在所有數(shù)據(jù)集中模擬了相同的模塊結(jié)構(gòu),即所有模擬的模塊也是共識(shí)模塊。這可以使用函數(shù)simulateMultiExpr 方便地實(shí)現(xiàn)。
統(tǒng)計(jì)分析和代碼
所有統(tǒng)計(jì)分析均使用 R 語(yǔ)言和統(tǒng)計(jì)環(huán)境版本 2.15.0 進(jìn)行?;诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組使用了 WGCNA R 包 1.20 版中實(shí)現(xiàn)的網(wǎng)絡(luò)和共識(shí)模塊分析功能。WGCNA 包中的 GO 富集分析在函數(shù) GOenrichmentAnalysis 中實(shí)現(xiàn),并依賴于 Bioconductor 項(xiàng)目提供的注釋包版本 2.10。(各個(gè)包的版本號(hào)可能不同;例如,GO 注釋包 GO.db 以及特定生物的注釋包 org.Xx.eg.db 的版本為 2.7.1。)盡管基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組分析中得出的定性結(jié)論是穩(wěn)健的,當(dāng)使用不同版本的 Bioconductor 注釋包(由于不斷發(fā)展的注釋數(shù)據(jù)庫(kù))和 WGCNA 包(由于網(wǎng)絡(luò)構(gòu)建和模塊識(shí)別方面的改進(jìn))時(shí),諸如正確富集 p 值或模塊中基因數(shù)量等次要細(xì)節(jié)可能會(huì)有所不同?;诨蚪獯a的基因檢測(cè)科學(xué)性提升秘密小組的預(yù)處理包括使用中詳述的 ComBat 功能和方法進(jìn)行批量刪除。所有數(shù)據(jù)和分析代碼都可以在基于基因解碼的基因檢測(cè)科學(xué)性提升秘密小組的網(wǎng)站上找到http://genetics.ucla.edu/labs/horvath/CoexpressionNetwork/MetaAnalysis/http://genetics.ucla.edu/labs/horvath/CoexpressionNetwork/MetaAnalysis/。
When is hub gene selection better than standard meta-analysis?
Langfelder P, Mischel PS, Horvath S.
PLoS One. 2013 Apr 17;8(4):e61505. doi: 10.1371/journal.pone.0061505. Print 2013.
PMID: 23613865