基因檢測(cè)就找佳學(xué)基因!

點(diǎn)此檢測(cè)

熱門搜索

癲癇
精神分裂癥
魚鱗病
白癜風(fēng)
唇腭裂
多指并指
特發(fā)性震顫
白化病
色素失禁癥
狐臭
斜視
視網(wǎng)膜色素變性
脊髓小腦萎縮
軟骨發(fā)育不全
血友病

客服電話

4001601189

在線咨詢

CONSULTATION

返回頂部

BACK TO TOP

分享基因科技，實(shí)現(xiàn)人人健康！

微信
新浪微博
QQ空間
QQ
人人網(wǎng)
領(lǐng)英
Facebook
Instapaper
Twitter
Messenger

×

當(dāng)前位置:????致電4001601189！ > 關(guān)于佳學(xué) > 技術(shù)優(yōu)勢(shì) >

【佳學(xué)基因檢測(cè)】如何在基因檢測(cè)后提高基因集富集分析的能力？

來(lái)源：基因數(shù)據(jù)分析
作者：基因解碼者
時(shí)間：2024-07-14 11:21
閱讀數(shù)：次

【佳學(xué)基因檢測(cè)】如何在基因檢測(cè)后提高基因集富集分析的能力？集富集分析已成為生物信息學(xué)和生物統(tǒng)計(jì)學(xué)工具包的重要組成部分。此類分析可以深入了解不同分子或臨床定義表型的基本生物學(xué)過程。假設(shè)有一個(gè)可用的數(shù)據(jù)集，其中測(cè)量了 N 個(gè)實(shí)例（樣本）的 p 個(gè)屬性（例如蛋白質(zhì)豐度、基因表達(dá)），每個(gè)實(shí)例都具有相關(guān)的連續(xù)或分類表型。集合富集不是進(jìn)行 p 單變量分析來(lái)評(píng)

【佳學(xué)基因檢測(cè)】如何在基因檢測(cè)后提高基因集富集分析的能力？

腫瘤基因檢測(cè)與靶向藥物選擇導(dǎo)讀：

背景

集合富集方法通常用于分析高維分子數(shù)據(jù)并獲得對(duì)分子或臨床表型的生物學(xué)洞察力。一類重要的分析方法采用富集分?jǐn)?shù)，它是根據(jù)表型和每個(gè)分子屬性之間的排名單變量相關(guān)性創(chuàng)建的。通過從表型排列產(chǎn)生的零分布確定關(guān)聯(lián)的重要性的估計(jì)?；驒z測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)研究了這種方法的一些統(tǒng)計(jì)特性，并展示了如何使用富集的替代評(píng)估來(lái)增加此類分析的統(tǒng)計(jì)能力，以檢測(cè)表型與生物過程和途徑之間的關(guān)聯(lián)。

結(jié)果

對(duì)于這類集合富集分析，零分布在很大程度上獨(dú)立于具有可用分子數(shù)據(jù)的樣本數(shù)量。因此，如果樣本隊(duì)列不太小，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)表明通過將隊(duì)列分成兩半并使用對(duì)每一半評(píng)估的富集分?jǐn)?shù)的平均值作為替代，可以增加識(shí)別生物過程和表型之間關(guān)聯(lián)的統(tǒng)計(jì)能力檢驗(yàn)統(tǒng)計(jì)量。此外，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)證明，可以通過將隊(duì)列的多個(gè)隨機(jī)分成兩半來(lái)平均來(lái)擴(kuò)展這一原則。這使得可以計(jì)算任意精度的富集統(tǒng)計(jì)和相關(guān)的p值，而與使用的確切隨機(jī)拆分無(wú)關(guān)。

結(jié)論

有可能增加基因集富集分析的統(tǒng)計(jì)能力，該分析采用從單變量表型屬性相關(guān)性和表型排列生成空分布的運(yùn)行總和創(chuàng)建的富集分?jǐn)?shù)。這種增加可以通過使用替代測(cè)試統(tǒng)計(jì)來(lái)實(shí)現(xiàn)，該統(tǒng)計(jì)為數(shù)據(jù)集的拆分計(jì)算平均富集分?jǐn)?shù)。除了基因集中上調(diào)和下調(diào)基因之間的密切平衡的特殊情況外，通過這種方法可以提高或至少保持統(tǒng)計(jì)能力，直至小樣本量，其中正確評(píng)估單變量表型基因相關(guān)性變得不可行。

關(guān)鍵詞：富集分析，基因集富集分析，統(tǒng)計(jì)功效

背景

集富集分析已成為生物信息學(xué)和生物統(tǒng)計(jì)學(xué)工具包的重要組成部分。此類分析可以深入了解不同分子或臨床定義表型的基本生物學(xué)過程。假設(shè)有一個(gè)可用的數(shù)據(jù)集，其中測(cè)量了 N 個(gè)實(shí)例（樣本）的 p 個(gè)屬性（例如蛋白質(zhì)豐度、基因表達(dá)），每個(gè)實(shí)例都具有相關(guān)的連續(xù)或分類表型。集合富集不是進(jìn)行 p 單變量分析來(lái)評(píng)估 N 個(gè)實(shí)例中每個(gè)單獨(dú)屬性與表型之間的相關(guān)性，而是試圖確定 p 屬性子集中與余。可以選擇包含與感興趣的特定生物過程或途徑相關(guān)的屬性的屬性子集。

集合富集分析有許多化身，主要區(qū)別在于用于評(píng)估富集的方法及其意義。在 Ackermann 等人中可以找到多種方法的概述和比較。。一類集合富集分析方法使用富集分?jǐn)?shù) (ES) 來(lái)捕獲屬性子集與其補(bǔ)集之間的個(gè)體屬性-表型相關(guān)性的差異。一種常用的富集評(píng)分方法，基因集富集分析 (GSEA) ，對(duì)屬性和表型之間的單變量相關(guān)性進(jìn)行排序，并根據(jù)從有序等級(jí)構(gòu)建的運(yùn)行總和的極值定義富集分?jǐn)?shù)。屬性子集（基因集）和由富集分?jǐn)?shù)捕獲的表型之間關(guān)聯(lián)的統(tǒng)計(jì)顯著性是基于通過排列表型標(biāo)簽生成的 ES 的空分布來(lái)確定的。

諸如 GSEA 之類的分析檢測(cè)與特定屬性子集的關(guān)聯(lián)的能力取決于：i．測(cè)量的屬性數(shù)量；ii. 屬性子集中的屬性數(shù)量以及它們之間的相關(guān)性；iii. 可獲得數(shù)據(jù)的樣本數(shù)量；和四。用于評(píng)估單變量屬性-表型相關(guān)性的指標(biāo)。已經(jīng)進(jìn)行了大量研究以更好地了解GSEA的局限性以及上述因素如何影響其敏感性和統(tǒng)計(jì)能力（例如，）。在本文中，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)探討了 GSEA 方法的統(tǒng)計(jì)能力對(duì)具有可用分子數(shù)據(jù)的隊(duì)列中的樣本數(shù)量的依賴性。基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)表明，雖然 ES 的分布隨著 N 的增加而變窄，但表型排列產(chǎn)生的零分布卻沒有。因此，增加隊(duì)列中的樣本數(shù)量并不會(huì)帶來(lái)與在其他設(shè)置中通常觀察到的 N 相同的統(tǒng)計(jì)功效增加。作為推論，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)表明，只要隊(duì)列足夠大，將隊(duì)列分成兩個(gè)不同的部分，并使用每個(gè)部分的 ES 平均值作為替代統(tǒng)計(jì)量，比使用定義的傳統(tǒng) ES 提供更大的檢測(cè)關(guān)聯(lián)的能力使用整個(gè)隊(duì)列。這種方法產(chǎn)生一個(gè)富集統(tǒng)計(jì)，因此富集p值，這取決于隊(duì)列分成兩部分的具體情況。這種潛在的劣勢(shì)可以通過隨機(jī)選擇多個(gè)隊(duì)列拆分并對(duì)這些拆分以及特定拆分中的一半的 ES 進(jìn)行平均來(lái)緩解。基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)表明，這種技術(shù)可以產(chǎn)生所需的精度水平（在富集分?jǐn)?shù)指標(biāo)和p值中），而與群組的拆分方式無(wú)關(guān)。

結(jié)果

乳腺癌患者的 mRNA 表達(dá)數(shù)據(jù)

本節(jié)使用一個(gè)公開可用的數(shù)據(jù)集，測(cè)量從乳腺癌患者收集的組織樣本中獲得的 13,018 個(gè)基因的表達(dá)。該隊(duì)列已得到充分研究，并且是開發(fā)一項(xiàng)測(cè)試的基礎(chǔ)，該測(cè)試將患者在乳腺癌手術(shù)后分為良好或不良結(jié)果組。測(cè)試分類（“好”或“差”）可作為數(shù)據(jù)集的一部分使用，并用作二元表型。這些數(shù)據(jù)來(lái)自 Venet 等人提供的補(bǔ)充材料。。使用的屬性子集（這里是基因集）是 Hallmarks 基因集（一組 50 個(gè)基因集）可從 Broad Institute GSEA 網(wǎng)站獲得（參見方法）。選擇了兩個(gè)特定基因集 HALLMARK_MYC_TARGETS_V1 和 HALLMARK_ALLOGRAFT_REJECTION 作為標(biāo)志基因集中過程的示例，這些基因集與以 GSEA p值約為 0.05 為特征的乳腺癌隊(duì)列中的表型相關(guān)（對(duì)于 MYC_TARGETS_V1 和p = 0.0684，p = 0.0172 和p = 0.0684）對(duì)于 ALLOGRAFT_REJECTION）。兩個(gè)基因組的標(biāo)準(zhǔn) ES 的零分布顯示在富集分析中使用的不同數(shù)量的樣本 N 中，在圖 3 中以藍(lán)色顯示。 1ab。每個(gè)條帶的寬度反映了在創(chuàng)建的 1000 個(gè)子集實(shí)現(xiàn)中每個(gè)直方圖箱中的零分布的標(biāo)準(zhǔn)誤差（從整個(gè)隊(duì)列中隨機(jī)選擇 N 個(gè)樣本，按表型分層）。很明顯，隨著 N 的增加，零分布基本上保持不變。請(qǐng)注意，這與典型統(tǒng)計(jì)的原型、教科書案例形成對(duì)比，例如學(xué)生的 t 統(tǒng)計(jì)，其中零分布隨著 N 的增加而變窄。樣本數(shù)量在確定 ES 的零分布寬度方面并不起典型作用。其他因素，例如測(cè)量的屬性數(shù)量和基因集中的屬性數(shù)量，對(duì)于確定空分布的形狀更為重要。

圖1：N = 20、40、60、80、100 和 200 的 ES 和 ES avg 的空分布。a HALLMARKS_MYC_TARGETS_V1，b HALLMARKS_ALLOGRAFT_REJECTION。ES 的分布以藍(lán)色顯示，ES avg的分布以紅色顯示

對(duì)于相同的基因組，ES 的采樣分布，對(duì)于從 294 個(gè)樣本的研究隊(duì)列中抽取的 N 個(gè)樣本的子集，隨著 N 的增加而變窄（圖 3 的下圖）。 2B）。對(duì)于賊低 N，分布保留了零分布的雙峰特征的痕跡。隨著 N 的增加，分布變得單峰，然后進(jìn)一步變窄。請(qǐng)注意，由于采樣是在僅 294 個(gè)樣本的總體中執(zhí)行的，因此采樣實(shí)現(xiàn)之間會(huì)有相關(guān)性，尤其是對(duì)于較大的 N。

圖 2:N = 20、40、60、80、100 和 200的ES 和 ES平均抽樣分布。a HALLMARKS_MYC_TARGETS_V1，b HALLMARKS_ALLOGRAFT_REJECTION

結(jié)果如圖所示。 1和???2

2這意味著檢測(cè)特定屬性子集和表型之間關(guān)聯(lián)的能力將隨著 N 增加。然而，它不會(huì)像一些更簡(jiǎn)單的統(tǒng)計(jì)數(shù)據(jù)那樣迅速發(fā)生，因?yàn)楸M管與備擇假設(shè)相關(guān)的分布隨著 N 而變窄，但零假設(shè)沒有。

基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)現(xiàn)在考慮將測(cè)試統(tǒng)計(jì)量從使用 N 個(gè)樣本計(jì)算的標(biāo)準(zhǔn) ES 更改為兩個(gè) ES1 和 ES2 的平均值的影響，每個(gè) ES 計(jì)算將 N 個(gè)樣本拆分為 N/2 個(gè)樣本的兩個(gè)不同子集，即ES平均值 = 0.5 (ES1 + ES2)。數(shù)字 1ab 比較了 ES avg（紅色）和 ES（藍(lán)色）的零分布，對(duì)于兩個(gè)示例基因組的各種 N 值。（請(qǐng)注意，ES avg的零分布是三峰的，而不是雙峰的。對(duì)于表型分類的排列，ES1 和 ES2 同樣可能是正數(shù)或負(fù)數(shù)，因此 ES avg接近 0 的可能性不大。）圖 2ab 對(duì) ES avg（上圖）和 ES（下圖）的采樣分布顯示相同。對(duì)于所有研究的 N，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)觀察到 ES avg的零分布比 ES 的更窄。這是相對(duì)獨(dú)立于 N 的零分布的結(jié)果：ES 的零分布對(duì)于 N 和 N/2 是相似的。因此，ES1 和 ES2 的零分布（針對(duì) N/2 個(gè)樣本計(jì)算）與 ES 的相似。由于 ES avg是 ES1 和 ES2 的平均值，對(duì)于 N/2 個(gè)樣本，它的零分布將比 ES（類似 ES1 和 ES2）窄，因此比 N 個(gè)樣本的 ES 窄。對(duì)于小 N，ES avg的采樣分布可能比 ES 更寬。當(dāng) N 非常小以至于無(wú)法以足夠的正確度評(píng)估表型-個(gè)體基因相關(guān)性以產(chǎn)生單峰 ES平均抽樣分布時(shí)，就會(huì)發(fā)生這種情況，即使基因集和表型之間存在真正的群體關(guān)聯(lián)。當(dāng)基因集和表型之間沒有種群關(guān)聯(lián)時(shí)，較大的 N 可能會(huì)發(fā)生這種情況。然而，當(dāng)基因集和表型之間存在真正的群體關(guān)聯(lián)時(shí)，對(duì)于較大的 N，ES avg的抽樣分布N 個(gè)樣本的位置和寬度與 ES 相似。在這些情況下，如 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 所示，盡管 ES1 和 ES2 的采樣分布比 ES 的更寬，但由于樣本量減半，這可以通過將 ES1 和 ES2 平均化為新統(tǒng)計(jì)，ES avg。

因此，使用 ES avg作為檢驗(yàn)統(tǒng)計(jì)量增加了檢測(cè)表型與特定基因組關(guān)聯(lián)的能力，而不是使用 ES 獲得的關(guān)聯(lián)，只要 N 不太小并且存在有意義的群體關(guān)聯(lián)。數(shù)字 3顯示 ES 和 ES avg之間的統(tǒng)計(jì)功效差異作為檢驗(yàn)統(tǒng)計(jì)量，以檢測(cè)兩個(gè)示例基因集和表型之間的關(guān)聯(lián)。結(jié)果顯示為 294 名患者隊(duì)列的子集大小 N 的函數(shù)。即使對(duì)于 40 個(gè)樣本（24 個(gè)“差”和 16 個(gè)“好”表型），使用 ES avg作為統(tǒng)計(jì)數(shù)據(jù)也可以提高檢測(cè)關(guān)聯(lián)的能力。對(duì)于 20 個(gè)樣本，ES avg的功率在數(shù)值上小于ES，盡管這兩種方法都提供了賊小的功率（小于 30%）。受益于 ES avg的確切樣本量超過 ES 停止將取決于關(guān)聯(lián)的大小。對(duì)于非常小的樣本量，除了表型和個(gè)體基因表達(dá)之間非常強(qiáng)的單變量相關(guān)性之外，不可能以任何正確度評(píng)估任何東西。在這種情況下，使用標(biāo)準(zhǔn) ES 測(cè)試統(tǒng)計(jì)量檢測(cè)基因組與表型關(guān)聯(lián)的能力已經(jīng)受到嚴(yán)重影響。如果將數(shù)據(jù)集分成兩半，這種情況會(huì)更加嚴(yán)重。然后，ES avg的功效不會(huì)比 ES 有所提高，但使用任一檢驗(yàn)統(tǒng)計(jì)量的統(tǒng)計(jì)功效都會(huì)很低。

圖 3

檢測(cè)表型與 HALLMARKS_MYC_TARGETS_V1（藍(lán)色）和 HALLMARKS_ALLOGRAFT_REJECTION（紅色）與 α = 0.05 的關(guān)聯(lián)的能力。對(duì)于 ES（虛線）和 ES avg（實(shí)線），功率顯示為 N 的函數(shù)

使用統(tǒng)計(jì) ES avg的一個(gè)缺點(diǎn)是它不是為一個(gè)群組少有定義的，并且取決于將群組分成兩部分的方式?？梢酝ㄟ^多次（M）次將隊(duì)列隨機(jī)分成兩個(gè)不同的部分并將測(cè)試統(tǒng)計(jì)定義為 M 多次拆分的 ES avg的平均值來(lái)減少這種可變性，即

<

ES

平均

> =

∑

分裂

ES

平均

M

. 可以通過對(duì) <ES avg >平均的所有拆分應(yīng)用相同的表型標(biāo)簽排列來(lái)生成適當(dāng)?shù)牧惴植?。?shù)字 4顯示了為 MYC_TARGETS_V1 基因組的 294 名患者隊(duì)列中抽取的N = 200的一個(gè)子集生成的零分布，該基因集用于沒有分裂 (ES)、一個(gè)分裂 (ES avg )、兩個(gè)分裂和 25 個(gè)分裂的子集的測(cè)試統(tǒng)計(jì). 隨著平均分裂數(shù)增加到 1 以上，分布失去其多峰結(jié)構(gòu)但保持相同的總寬度。

圖 4

ES 和 <ES avg > 的空分布。<ES avg > 的空分布顯示為一個(gè)拆分（ES avg = <ES avg >）、兩個(gè)拆分和 25 個(gè)拆分。所有分布均針對(duì)從 294 名患者隊(duì)列中抽取的 200 個(gè)樣本中的一個(gè)子集生成

數(shù)字 5顯示了 ES avg和 < ES avg > 對(duì)于 200 個(gè)樣本的相同單個(gè)子集和 MYC_TARGETS_V1 基因集的 1000 個(gè)隨機(jī)分裂平均值的兩次分裂和 25 次分裂獲得的測(cè)試統(tǒng)計(jì)量的分布。正如考慮到大數(shù)定律所預(yù)期的那樣，分布的位置保持不變，并且分布的寬度隨著測(cè)試統(tǒng)計(jì)量在更多隨機(jī)分割上的平均值而變窄。此過程允許通過平均足夠的隨機(jī)拆分來(lái)定義測(cè)試統(tǒng)計(jì)量，從而定義相關(guān)的富集p值，以達(dá)到隊(duì)列的任意精度。

圖 5

1000 個(gè)隨機(jī)分裂平均值的 ES avg和 < ES avg >（兩次分裂和 25 次分裂）分布。所有分布均針對(duì)使用 MYC_TARGETS_V1 基因集的 200 個(gè)樣本的單個(gè)子集

為了說(shuō)明使用 ES avg和 < ES avg > 對(duì) ES 進(jìn)行 25 次分裂作為更廣泛基因集的測(cè)試統(tǒng)計(jì)量的好處，表 1比較了所有 50 個(gè) Hallmarks 基因組的富集p值，這些值是使用 294 名患者使用三個(gè)統(tǒng)計(jì)數(shù)據(jù)計(jì)算得出的。ES avg和 < ES avg >的關(guān)聯(lián)p值幾乎總是小于 ES，在少數(shù)情況并非如此的情況下，這兩種方法都不會(huì)產(chǎn)生表示顯著關(guān)聯(lián)的p值。

表格1

50 個(gè) Hallmarks 基因組的p值。p值是使用 ES、ES avg或 < ES avg >使用 294 個(gè)樣本隊(duì)列計(jì)算的，其中 25 個(gè)拆分作為檢驗(yàn)統(tǒng)計(jì)量。通過增加使用 ES avg作為統(tǒng)計(jì)量獲得的p值對(duì)基因集進(jìn)行排序

基因組	ES 的p值	ES avg的p值	<ES avg >的p值
MTORC1_SIGNALING	< 0.0001	< 0.0001	< 0.0001
E2F_TARGETS	< 0.0001	< 0.0001	< 0.0001
UV_RESPONSE_UP	0.0132	< 0.0001	< 0.0001
G2M_CHECKPOINT	< 0.0001	< 0.0001	< 0.0001
PI3K_AKT_MTOR_SIGNALING	0.0040	0.0002	< 0.0001
有絲分裂紡錘體	0.0028	0.0004	< 0.0001
UNFOLDED_PROTEIN_RESPONSE	0.0006	0.0004	< 0.0001
REACTIVE_OXIGEN_SPECIES_PATHWAY	0.0063	0.0004	0.0002
ESTROGEN_RESPONSE_EARLY	0.0068	0.0006	0.0002
精子發(fā)生	0.0185	0.0006	0.0002
糖酵解	0.0216	0.0012	0.0008
MYC_TARGETS_V1	0.0172	0.0020	0.0002
UV_RESPONSE_DN	0.0156	0.0020	0.0012
MYC_TARGETS_V2	0.0320	0.0032	0.0026
DNA_REPAIR	0.0263	0.0035	0.0008
INTERFERON_GAMMA_RESPONSE	0.0373	0.0046	0.0038
IL6_JAK_STAT3_SIGNALING	0.0790	0.0074	0.0081
INTERFERON_ALPHA_RESPONSE	0.0638	0.0080	0.0105
補(bǔ)充	0.1059	0.0157	0.0149
ESTROGEN_RESPONSE_LATE	0.0622	0.0188	0.0080
ALLOGRAFT_REJECTION	0.0684	0.0194	0.0144
INFLAMMATORY_RESPONSE	0.0963	0.0303	0.0172
CHOLESTEROL_HOMEOSTASIS	0.1035	0.0449	0.0252
膽汁酸代謝	0.0966	0.0472	0.0247
血管生成	0.2591	0.0796	0.0753
WNT_BETA_CATENIN_SIGNALING	0.4422	0.1160	0.1235
EPITHELIAL_MESENCHYMAL_TRANSITION	0.2984	0.1219	0.0984
凝血	0.2516	0.1223	0.1093
IL2_STAT5_SIGNALING	0.1685	0.1437	0.0596
生肌	0.2767	0.1589	0.1043
TGF_BETA_SIGNALING	0.3229	0.1593	0.1344
OXIDATIVE_PHOSPHORYLATION	0.3773	0.1877	0.1604
PROTEIN_SECRETION	0.3107	0.2032	0.2028
脂肪生成	0.4204	0.2247	0.2581
APICAL_SURFACE	0.4078	0.2477	0.0824
P53_PATHWAY	0.5724	0.2489	0.2423
TNFA_SIGNALING_VIA_NFKB	0.3401	0.2509	0.1545
缺氧	0.4398	0.2712	0.2450
細(xì)胞凋亡	0.5796	0.2905	0.3886
APICAL_JUNCTION	0.5175	0.2907	0.2579
NOTCH_SIGNALING	0.7451	0.3104	0.3226
FATTY_ACID_METABOLISM	0.5358	0.3134	0.3853
PANCREAS_BETA_CELLS	0.6834	0.3201	0.1500
XENOBIOTIC_METABOLISM	0.4921	0.3541	0.4946
HEME_METABOLISM	0.7713	0.4576	0.4731
KRAS_SIGNALING_UP	0.6241	0.7068	0.4892
ANDROGEN_RESPONSE	0.8082	0.7539	0.5841
HEDGEHOG_SIGNALING	0.7870	0.7810	0.5163
過氧化物酶體	0.3931	0.8977	0.3682
KRAS_SIGNALING_DN	0.9700	0.9193	0.7337

合成數(shù)據(jù)集

為了進(jìn)一步研究該方法對(duì)具有不同表型關(guān)聯(lián)程度和不同屬性相關(guān)程度的屬性子集的性能，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)使用合成數(shù)據(jù)進(jìn)行了一組實(shí)驗(yàn)?；驒z測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)的方法類似于 Ackermann 和 Strimmer 的基準(zhǔn)測(cè)試方法?；驒z測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)為 50 個(gè)樣本（每個(gè)表型 25 個(gè)）模擬了 600 個(gè)基因的數(shù)據(jù)集，并定義了 21 個(gè)基因組，它們具有不同程度的基因間相關(guān)性和表型之間的差異表達(dá)。方法中提供了完整的詳細(xì)信息。為了評(píng)估不同測(cè)試統(tǒng)計(jì)數(shù)據(jù)識(shí)別表型與基因組關(guān)聯(lián)的能力，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)評(píng)估了 100 個(gè)數(shù)據(jù)集實(shí)現(xiàn)中檢測(cè)到與p關(guān)聯(lián)的比例 < 0.05 使用 ES、ES avg和 < ES avg > 進(jìn)行 25 次拆分。結(jié)果如表所示 2.

表 2

ES、ES avg和 < ES avg > 的 25 次拆分p < 0.05 的實(shí)現(xiàn)比例。使用 3 個(gè)測(cè)試統(tǒng)計(jì)量 ES、ES avg和 < ES avg >計(jì)算 21 個(gè)基因組中每個(gè)基因組的 100 次數(shù)據(jù)集實(shí)現(xiàn)的比例，M = 25。a表示與表型無(wú)關(guān)的對(duì)照基因組

基因組	p < 0.05的比例
基因組	ES	ES平均	<ES平均>
一個(gè)_	0.06	0.08	0.05
b	1.00	1.00	1.00
C	0.82	0.81	0.92
d	0.09	0.09	0.14
e	0.38	0.39	0.46
F	0.06	0.13	0.10
G	0.01	0.00	0.01
H	0.29	0.19	0.19
一世	0.10	0.16	0.07
一個(gè)_	0.07	0.07	0.07
?	0.92	0.93	0.98
l	0.81	0.88	0.91
M	0.92	0.94	0.98
n	0.34	0.35	0.43
○	0.73	0.76	0.84
p	0.42	0.56	0.64
q	0.77	0.84	0.90
r	0.22	0.26	0.22
s	0.75	0.77	0.90
噸	0.36	0.38	0.44
你	0.25	0.28	0.37

除了兩個(gè)控制組（a 和 j）之外，所有基因組的構(gòu)建都具有基因組中至少一些屬性與表型之間的關(guān)聯(lián)。該關(guān)聯(lián)被選擇為從中等到弱。這允許檢測(cè)統(tǒng)計(jì)能力的差異，以識(shí)別基因集和表型之間的關(guān)聯(lián)；如果關(guān)聯(lián)很強(qiáng)（例如，大于基因組 b），它們將在所有方法的幾乎所有實(shí)現(xiàn)中統(tǒng)一檢測(cè)到。對(duì)于兩個(gè)對(duì)照基因組，表型和基因組之間沒有關(guān)聯(lián)，p值在實(shí)現(xiàn)上的分布是均勻的（參見附錄中的直方圖），實(shí)現(xiàn)的比例產(chǎn)生p對(duì)于基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)的方法，低于 0.05 的關(guān)聯(lián)值保持在 5% 左右。對(duì)于大多數(shù)其他基因組，識(shí)別與p < 0.05 關(guān)聯(lián)的實(shí)現(xiàn)比例對(duì)于 <ES avg > (M = 25) 更高，并且通常對(duì)于 ES avg，而不是 ES。這表明在各種屬性子集場(chǎng)景中識(shí)別構(gòu)建關(guān)聯(lián)的能力增加，包括表型和基因之間不同程度的單變量關(guān)聯(lián)、表型之間上調(diào)和下調(diào)基因的混合以及基因組內(nèi)相關(guān)結(jié)構(gòu)的差異。除了控制之外，還有其他兩種情況沒有觀察到增加的功率。先進(jìn)個(gè)包括關(guān)聯(lián)非常弱的那些基因集（基因集 d、f 和 g）。所有三個(gè)測(cè)試統(tǒng)計(jì)數(shù)據(jù)在識(shí)別表型和基因組之間構(gòu)建的非常弱的關(guān)聯(lián)方面都具有同樣差的能力。第二種情況包括基因組（基因組 h 和 i）內(nèi)上調(diào)和下調(diào)屬性之間平衡的特殊情況?；蚪M h 和 i 由相同數(shù)量的表型上調(diào)和下調(diào)屬性構(gòu)成，它們與表型的單變量相關(guān)強(qiáng)度有效相同。在這個(gè)非常特殊的設(shè)置中，對(duì)于數(shù)據(jù)集的任何特定實(shí)現(xiàn)，計(jì)算正 ES 或負(fù) ES 的可能性相同。對(duì)于基因組 h，在大約 30% 的病例中發(fā)現(xiàn)p < 0.05，但其中大約一半對(duì)應(yīng)于陽(yáng)性 ES，另一半對(duì)應(yīng)于陰性 ES。當(dāng)數(shù)據(jù)集分成兩部分來(lái)計(jì)算 ES avg和 < ES avg > 時(shí)，由于與表型的上下關(guān)聯(lián)之間的正確平衡，每一半都可能產(chǎn)生正或負(fù) ES。對(duì)這種雙峰分布進(jìn)行平均產(chǎn)生以 ES avg = 0 或 < ES avg > =0 為中心的分布，因此降低了識(shí)別表型和基因集之間顯著關(guān)聯(lián)的能力。因此，在這種與表型上下關(guān)聯(lián)的特征范圍和數(shù)量之間取得平衡的特殊設(shè)置中，ES avg的表現(xiàn)和 <ES avg > 測(cè)試統(tǒng)計(jì)不如 ES。然而，只要不接近正確匹配的上調(diào)和下調(diào)場(chǎng)景，ES avg和 < ES avg > 至少顯示出與 ES 相似的功率（參見基因集 r，有 13 個(gè)基因，Δμ = 0.5和 7 個(gè)具有 Δμ = - 0.5) 或更大功率（基因組 l、p 和 q，每個(gè)具有 15 個(gè) Δμ = 0.5 的基因和 5 個(gè)具有 Δμ = - 0.5 的基因）。在現(xiàn)實(shí)世界的環(huán)境中，表型之間差異基因表達(dá)的相反方向的數(shù)量和幅度非常接近平衡不太可能在基因集中發(fā)生。因此，合成數(shù)據(jù)的分析表明使用 ES avg或 < ES avg > 只要樣本集的大小和關(guān)聯(lián)強(qiáng)度足夠大，可以通過標(biāo)準(zhǔn) ES 方法為識(shí)別提供一些賊小的能力，就可能增加檢測(cè)與基因集所代表的生物過程關(guān)聯(lián)的能力。

討論和結(jié)論

富集分?jǐn)?shù)的零分布，如 GSEA 設(shè)置富集分析方法中所定義的，在很大程度上獨(dú)立于分析中使用的樣本數(shù)量。因此，增加樣本隊(duì)列大小 N 只能通過縮小 ES 的抽樣分布來(lái)提高檢測(cè)基因集和表型之間關(guān)聯(lián)的能力。將隊(duì)列分成兩個(gè)不同的相等部分，計(jì)算每個(gè)部分的 ES，并對(duì)它們進(jìn)行平均以創(chuàng)建新的測(cè)試統(tǒng)計(jì)量 ES avg，可以產(chǎn)生明顯更窄的空分布和類似的 ES 抽樣分布。這種方法導(dǎo)致增加的統(tǒng)計(jì)能力來(lái)檢測(cè)表型和屬性子集之間的顯著關(guān)聯(lián)。在大多數(shù)情況并非如此的情況下，ES 和 ES avg由于測(cè)試統(tǒng)計(jì)導(dǎo)致表型和基因集的顯著關(guān)聯(lián)的識(shí)別，因?yàn)椴淮嬖陉P(guān)聯(lián)，屬性子集與表型的關(guān)聯(lián)不夠強(qiáng)，無(wú)法檢測(cè)，或者 N 太小而無(wú)法對(duì)單個(gè)基因和表型之間的相關(guān)性進(jìn)行有意義的評(píng)估。在表型之間上調(diào)和下調(diào)屬性的數(shù)量和幅度之間密切匹配的特殊情況下，即使對(duì)于賊大的樣本量，ES 統(tǒng)計(jì)量的抽樣分布也具有雙峰的不尋常特性。使用 ES平均因?yàn)闄z驗(yàn)統(tǒng)計(jì)量會(huì)降低識(shí)別關(guān)聯(lián)的能力。然而，這種情況不太可能發(fā)生在綜合生成的數(shù)據(jù)集之外，并且可以通過檢查計(jì)算 ES 的運(yùn)行總和來(lái)識(shí)別這種情況。（即使與這些 ES 值相關(guān)的p值很小，也會(huì)觀察到運(yùn)行總和與零的賊大和賊小偏差的相似幅度。）測(cè)試統(tǒng)計(jì)量和富集p值對(duì)隊(duì)列方式的不可接受的依賴性通過使用平均過程的擴(kuò)展以在測(cè)試統(tǒng)計(jì) <ES avg >中包含隊(duì)列的多個(gè)隨機(jī)拆分，可以避免拆分以產(chǎn)生 ES avg 。

這種方法的應(yīng)用可以在統(tǒng)計(jì)能力方面帶來(lái)明顯的優(yōu)勢(shì)，可用于識(shí)別生物過程或途徑與樣本/患者表型之間的關(guān)聯(lián)，但賊小樣本群組除外，其中標(biāo)準(zhǔn)方法的能力也非常有限。這可能有助于緩解文獻(xiàn) 中指出的這類 ES 的功率相對(duì)降低的問題。增加的權(quán)力將能夠高效地識(shí)別較弱的關(guān)聯(lián)，并增加識(shí)別可能在p方面具有臨界意義的確定性-值和錯(cuò)誤發(fā)現(xiàn)率與標(biāo)準(zhǔn)統(tǒng)計(jì)。該方法已使用二元表型分類和表型-個(gè)體基因相關(guān)度量的一種選擇進(jìn)行了說(shuō)明，但它應(yīng)該適用于使用其他相關(guān)度量或連續(xù)表型評(píng)分的富集分析。使用 ES avg或 < ES avg的好處 > 超過 ES 取決于 ES 的零分布對(duì)樣本數(shù) N 的相對(duì)獨(dú)立性。這種現(xiàn)象是通過運(yùn)行總和的極值評(píng)估富集方式的結(jié)果（由排名和組合屬性-表型相關(guān)性）和通過表型排列生成零分布。用于生成空分布的每個(gè)表型排列導(dǎo)致屬性-表型相關(guān)性的值和等級(jí)的隨機(jī)化。因此，評(píng)估屬性和表型之間相關(guān)性的方式并不重要，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)的方法應(yīng)該直接適用于采用其他相關(guān)性度量的 GSEA（例如，用于連續(xù)屬性的 Spearman/Pearson r）。

在這里，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)只探索了將樣本集分成兩個(gè)不同的相等部分。該方法可以擴(kuò)展為將數(shù)據(jù)集拆分為兩個(gè)以上的部分進(jìn)行平均，這將通過進(jìn)一步縮小相關(guān)的空分布來(lái)提高性能。然而，拆分成更多不同子集的好處需要更大的隊(duì)列規(guī)模?？绮煌蛹骄?ES 的概念也可能有助于組合來(lái)自具有相同可用屬性的多個(gè)樣本群組的數(shù)據(jù)。如果批次效應(yīng)阻止將多個(gè)樣本集合并到一個(gè)隊(duì)列中，這可能特別有用。使用歸一化的 ES 還將允許使用相同的方法來(lái)組合來(lái)自不同隊(duì)列的患者的數(shù)據(jù)，每個(gè)隊(duì)列具有不同的可用屬性，例如，甚至可以組合基因組和蛋白質(zhì)組學(xué)面板數(shù)據(jù)，前提是可以將一致的表型分配給多個(gè)隊(duì)列。如果使用患者定義的表型類別標(biāo)簽的排列生成空分布，則還可以使用對(duì)每個(gè)數(shù)據(jù)源計(jì)算的 ES 進(jìn)行平均來(lái)擴(kuò)展到單個(gè)患者隊(duì)列的多個(gè)數(shù)據(jù)源的情況。

方法

數(shù)據(jù)集和基因集：mRNA 表達(dá)

本部分研究中使用的數(shù)據(jù)集可從訪問，包括從接受乳腺癌手術(shù)的患者收集的組織樣本中采集的 13,018 個(gè)基因的 mRNA 表達(dá)測(cè)量值。這個(gè)由 295 名患者組成的隊(duì)列是開發(fā)將患者分為“好”和“差”結(jié)果組的測(cè)試的基礎(chǔ) 。每個(gè)患者的測(cè)試分類都包含在數(shù)據(jù)集中，并且這個(gè)二元結(jié)果被用作尋求與生物過程關(guān)聯(lián)的表型。基因表達(dá)值用于無(wú)需進(jìn)一步處理或標(biāo)準(zhǔn)化。在整個(gè)研究過程中，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)使用了 295 名患者中的 294 名的數(shù)據(jù)（未使用來(lái)自樣本 NKI373 的數(shù)據(jù)），以便將隊(duì)列分成兩個(gè)不同的、大小相等的亞組。

此處使用的屬性集（在本例中為基因集）是可從 Broad Institute GSEA 網(wǎng)站 ( http://software.broadinstitute.org/gsea/msigdb/collections/jsp#H ) 獲得的 Hallmarks 基因集。它們是精心策劃的基因集集合，代表了明確定義的生物狀態(tài)和過程。集合中包括五十個(gè)基因組。對(duì)于大多數(shù)分析，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)從 Hallmarks 集中選擇了兩個(gè)特定的基因集，MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 作為示例。測(cè)試分類表型顯示出與這些基因組的明確但不是極端的關(guān)聯(lián)，因此，它們被認(rèn)為是特別說(shuō)明性的例子。磷還使用 ES、ES avg和 < ES avg >（25 次分割）作為測(cè)試統(tǒng)計(jì)數(shù)據(jù)，使用來(lái)自所有 294 個(gè)樣本的數(shù)據(jù)計(jì)算了 Hallmarks 集合中所有 50 個(gè)基因組的富集值。

數(shù)據(jù)集和基因集：合成數(shù)據(jù)

為了以更可控的方式研究方法的性能對(duì)屬性子集中屬性之間的關(guān)聯(lián)程度和相關(guān)程度的依賴性，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)使用合成數(shù)據(jù)集和屬性子集進(jìn)行了一組分析，遵循 Ackermann 的基準(zhǔn)測(cè)試方法和斯特里默。

600 個(gè)屬性（基因）的表達(dá)值的合成數(shù)據(jù)集是通過從具有單位方差的多元正態(tài)分布中繪制的，其中包含 25 個(gè)具有表型 A 的樣本和 25 個(gè)具有表型 B 的樣本。對(duì)于屬性i，基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)定義了平均屬性值之間的差異A 和 B 為 Δμ i。屬性i和屬性j之間的相關(guān)性定義為 ρ ij。為 50 個(gè)樣本選擇了 600 個(gè)屬性，如下所示：

一世。420，Δμ = 0 和 ρ = 0，
ii. 20，Δμ = 0.5 和 ρ = 0，
iii. 20，Δμ = 0.25 和 ρ = 0，
iv. 20，Δμ = 0.1 和 ρ = 0，
v. 20，Δμ = 0.5 和 ρ = 0.6，
六。20，Δμ = 0.25 和 ρ = 0.6，
七。20，Δμ = 0.1 和 ρ = 0.6，
八。10 與 Δμ = + 0.5 和 10 與 Δμ = - 0.5，在 10 的每個(gè)子組內(nèi) ρ = 0.6，在子組之間 ρ = - 0.6，
九。10，Δμ = + 0.5 和 10，Δμ = - 0.5，ρ = 0，
X。20，Δμ = 0 和 ρ = 0.6。

通過采用以下屬性組創(chuàng)建了 21 個(gè)具有不同程度的表型關(guān)聯(lián)和不同相互關(guān)聯(lián)的基因組：

20 來(lái)自 (i)
(ii) 中的 20
20 來(lái)自 (iii)
20 來(lái)自 (iv)
20 來(lái)自 (v)
20（六）
20（七）
(八) 20
20 來(lái)自 (ix)
20 來(lái)自 (x)
(ii) 中的 10 和 (v) 中的 10
(ii) 中的 10，(viii) 中的 5 + 5 (5 Δμ = 0.5 和 5 Δμ = - 0.5)
(ii)、(iii) 和 (iv) 中的 20
(v)、(vi) 和 (vii) 中的 20
20 從 (ii)-(vii)
(ix) 中的 10 個(gè)，Δμ = + 0.5，(viii) 中的 5 個(gè)，Δμ = - 0.5，和 (viii) 中的 5 個(gè)，Δμ = + 0.5 和 ρ = 0.6
(ii) 中的 10，(viii) 中的 5 + 5 (5 Δμ = 0.5 和 5 Δμ = - 0.5)
來(lái)自 (ii) 的 3，來(lái)自 (ix) 的 10 Δμ = 0.5 和來(lái)自 (ix) 的 7，Δμ = - 0.5
(i) 中的 10 和 (ii) 中的 10
(i) 中的 10 和 (v) 中的 10
(i) 中的 8 個(gè)和 (ii)-(x) 中的 12 個(gè)

基因集富集分析實(shí)現(xiàn)

使用的富集集分析方法密切遵循 Subramanian 等人的方法。?；诘燃?jí)的相關(guān)性，以 Mann-Whitney 檢驗(yàn)統(tǒng)計(jì)量的形式，范圍從 1 到 - 1，用于表征單個(gè)屬性的表達(dá)與二元表型之間的關(guān)聯(lián)。對(duì)于標(biāo)準(zhǔn)基因集富集分析，使用的富集分?jǐn)?shù) ES 與 Subramanian 等人的定義有效相同。p = 1。用于評(píng)估富集統(tǒng)計(jì)顯著性的空分布是通過表型分類的重復(fù)隨機(jī)改組（排列）獲得的。

使用 ES avg的替代富集評(píng)估方法實(shí)施如下。大小為 N 的隊(duì)列被分成兩個(gè)相等且不同的子組，S 1和 S 2，每個(gè)子組的大小為 N/2。對(duì)于每個(gè)亞組，如上文所述計(jì)算富集分?jǐn)?shù)，以分別產(chǎn)生 S 1、S 2的 ES1、ES2 。替代統(tǒng)計(jì) ES avg被定義為兩個(gè)亞組富集分?jǐn)?shù)的平均值，即 ES avg = 0.5(ES1 + ES2)。通過表型分類的排列再次計(jì)算空分布。表型分類被打亂，然后數(shù)據(jù)集被分成兩半，S 1和 S 2. ES1 和 ES2 分別在 S 1和 S 2內(nèi)計(jì)算并取平均值，得到 ES avg用于置換實(shí)現(xiàn)。

使用測(cè)試統(tǒng)計(jì)量<ES avg > = 0.5 Σ i (ES1 i + ES2 i )/M使用多個(gè)拆分的平均值評(píng)估富集，其中總和超過拆分?jǐn)?shù) M，將 N 個(gè)樣本分成兩個(gè)隨機(jī)子集 S 1i和 S 2i，分別具有富集分?jǐn)?shù) ES1 i和 ES2 i。為了生成空分布，表型分類被打亂，然后數(shù)據(jù)集被隨機(jī)分成兩半 M 次。<ES avg > 然后為置換實(shí)現(xiàn)計(jì)算。對(duì)于生成零分布所需的置換實(shí)現(xiàn)的數(shù)量重復(fù)此操作。

ES 和 ES avg的空分布

對(duì)于基因集 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 的大小為 20、40、60、80、100 和 200 的群組的子集，生成標(biāo)準(zhǔn)富集分?jǐn)?shù) ES 和替代統(tǒng)計(jì)量 ES avg的空分布。在每種情況下，隨機(jī)選擇一個(gè)子集，按表型分類分層。在每種情況下，表型分類隨機(jī)排列 10,000 次。

ES 和 ES avg的抽樣分布

對(duì)于N = 20、40、60、80、100 和 200 的基因集 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION，為 ES 和 ES avg生成了從 294 個(gè)樣本的群體隊(duì)列中抽取的大小為 N 的子集的抽樣分布。選擇了一千個(gè)子集每個(gè)子集大小隨機(jī)，按表型分類分層。

檢測(cè) ES 和 ES avg之間關(guān)聯(lián)的能力比較

檢測(cè)表型與基因組 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 關(guān)聯(lián)的能力計(jì)算如下。首先如上所述計(jì)算不同子集大小的 ES 和 ES avg的零分布。ES 和 ES avg如上所述計(jì)算，每個(gè)子集大小的 1000 次實(shí)現(xiàn)，用于估計(jì)采樣分布。對(duì)于每個(gè)子集大小的每個(gè)實(shí)現(xiàn)，將 ES 和 ES avg與其各自的零分布進(jìn)行比較，以確定是否觀察到與p < 0.05 的關(guān)聯(lián)。檢測(cè)這種與 α = 0.05 的關(guān)聯(lián)的能力被定義為p < 0.05 的實(shí)現(xiàn)比例。

不同分割數(shù)的富集分?jǐn)?shù)統(tǒng)計(jì)的空分布，M

估計(jì)了 ES（無(wú)拆分）、ES平均（1 次拆分）和 <ES平均 > 的零分布，其中 2 次和 25 次拆分來(lái)自 294 名患者隊(duì)列中的 200 個(gè)樣本的一個(gè)子集。如上所述，從表型分類的 10,000 個(gè)排列中生成每個(gè)空分布。

<ES avg > 在隊(duì)列的不同拆分上的分布，對(duì)于不同數(shù)量的拆分，M

使用 1000 個(gè)實(shí)現(xiàn)估計(jì)從研究隊(duì)列中抽取的 200 個(gè)樣本的單個(gè)子集的不同隨機(jī)拆分的 ES（無(wú)拆分）、ES avg（1 拆分）和 <ES avg > 的分布，其中 2 和 25 拆分每個(gè)統(tǒng)計(jì)數(shù)據(jù)所需的拆分集。

所有 50 個(gè) Hallmark 基因組與隊(duì)列表型分類的關(guān)聯(lián)

對(duì)于 50 個(gè) Hallmark 基因組中的每一個(gè)，GSEA 分別使用 ES、ES avg和 < ES avg > 在 294 個(gè)樣本的整個(gè)隊(duì)列中進(jìn)行 M = 25 次分割。通過 10,000 個(gè)表型分類排列估計(jì)每個(gè)基因集的無(wú)效分布。

綜合數(shù)據(jù)分析

對(duì)于 21 個(gè)基因組中的每一個(gè)，使用 ES、ES avg和 < ES avg >分別執(zhí)行 GSEA，其中 M = 25 次拆分，用于 100 次合成數(shù)據(jù)集的實(shí)現(xiàn)。通過 10,000 個(gè)表型分類排列估計(jì)空分布。通過計(jì)算富集p值低于 0.05的實(shí)現(xiàn)比例來(lái)估計(jì)分析檢測(cè) α = 0.05（顯著性水平為 95%）的基因集和表型之間關(guān)聯(lián)的能力。為了檢查兩個(gè)對(duì)照基因組（a 和 j）的p值分布，對(duì)統(tǒng)計(jì)數(shù)據(jù) ES、ES avg和 < ES avg >執(zhí)行 GSEA，其中 M = 25 用于數(shù)據(jù)集的 1000 次實(shí)現(xiàn)。

軟件

實(shí)施本研究中介紹的方法的軟件可在https://bitbucket.org/PSEABiodesix/pseabiodesix的 PSEABiodesix 存儲(chǔ)庫(kù)中獲得。

致謝

不適用。

資金

不適用。

數(shù)據(jù)和材料的可用性

支持本文結(jié)論的數(shù)據(jù)集可在與 Venet 等人相關(guān)的補(bǔ)充材料中找到。在 10.1371/journal.pcbi.1002240.s001。

實(shí)施本研究中介紹的方法的軟件可在https://bitbucket.org/PSEABiodesix/pseabiodesix的 PSEABiodesix 存儲(chǔ)庫(kù)中獲得。軟件要求包括：

操作系統(tǒng) - Windows（使用 Windows 7 Professional 開發(fā)/測(cè)試）
編程語(yǔ)言 - C#。Net（需要.Net Framework 4.5.2 版）
其他要求 – IMSL 6.5.0 的 Roguewave IMSL C# 許可證
許可證 – 新（3 條款）BSD 許可證

縮寫

ES	濃縮分?jǐn)?shù)
GSEA	基因集富集分析

附錄

對(duì)于通過構(gòu)建與表型沒有關(guān)聯(lián)的對(duì)照合成基因組，使用數(shù)據(jù)集的 1000 個(gè)實(shí)現(xiàn)的所有三個(gè)富集統(tǒng)計(jì)數(shù)據(jù)進(jìn)行 GSEA，以檢查實(shí)現(xiàn)中p值的分布（圖 2）。 6）。

圖 6

用于控制基因集的 ES、ES avg和 < ES avg > 的數(shù)據(jù)集實(shí)現(xiàn)上的p值分布。a基因組 a, b基因組 j

Improving the power of gene set enrichment analyses.

Roder J, Linstid B, Oliveira C.

BMC Bioinformatics. 2019 May 17;20(1):257. doi: 10.1186/s12859-019-2850-1.

(責(zé)任編輯：佳學(xué)基因)

頂一下

(0)

0%

踩一下

(0)

0%