【佳學(xué)基因檢測】基因檢測的數(shù)據(jù)庫基礎(chǔ):MSigDb
佳學(xué)基因基因解碼基因檢測采用的高通量技術(shù),如微陣列和下一代測序,可以在基因組規(guī)模上測量基因活性。佳學(xué)基因的轉(zhuǎn)錄分析,可以在一次實(shí)驗中檢測數(shù)以萬計的基因的轉(zhuǎn)錄豐度。對如此的龐大的數(shù)據(jù)的基因解碼基因檢測通常采用以下兩種方法之一。先進(jìn)是識別所研究的、解碼的人體疾病表征中差異化表達(dá)的基因。這很容易執(zhí)行,但在實(shí)踐中會導(dǎo)致后續(xù)分析和結(jié)果解釋方面較為困難。例如,在某些疾病中,只有少數(shù)基因的表達(dá)具有統(tǒng)計學(xué)意義,分析可能不會產(chǎn)生有意義的結(jié)果。或者,當(dāng)大量基因通過生物信息分析設(shè)定的閾值或者界限時,可能沒有明顯的方法來選擇賊值得觀注的基因。這也是佳學(xué)基因所提出的單純的生物信息分析在基因解碼中的作用是有限的。佳學(xué)基因進(jìn)而從另一個角度提出基因解碼方法,這將在另外的文章中進(jìn)行講述。此外,由此產(chǎn)生的基因列表可能難以解釋和識別這些基因所代表的相關(guān)生物學(xué)過程。由基因集富集分析 (GSEA) 開創(chuàng)的另一種方法側(cè)重于注釋基因組或基因集的協(xié)調(diào)差異表達(dá),產(chǎn)生的結(jié)果更容易根據(jù)相關(guān)的生物過程來解釋。自推出以來,GSEA 的使用已經(jīng)變得廣泛,并推動了許多類似方法的開發(fā),甚至出現(xiàn)了基于變量組的新統(tǒng)計方法。在2010至2020年間,GSEA 已在生物醫(yī)學(xué)研究的許多領(lǐng)域證明是一種非常成功的方法,并已成為佳學(xué)基因及其培訓(xùn)學(xué)員單位基因組分析工具中重要組成部分。
佳學(xué)基因使用的分子特征數(shù)據(jù)庫(MSigDB)賊初是為與GSEA一起使用而開發(fā)的,現(xiàn)在在許多類似的方法中使用,它仍然是賊大和賊流行的基因集存儲庫之一。2022年版本的MSigDB由七個集合C1-C7組成,其中包括:按其在人類基因組中的位置(C1)分組的基因、根據(jù)出版物整理的標(biāo)準(zhǔn)路徑和實(shí)驗特征(C2)、在其編碼序列的上游或下游共享順式調(diào)控基序的基因(C3),基因簇在微陣列綱要(C4)中共同表達(dá),根據(jù)基因本體論(GO)分類(C5)對基因進(jìn)行分組,致癌途徑激活的特征(C6)和大量免疫疾病分組(C7)。MSigDB數(shù)據(jù)庫的每一個記錄都經(jīng)過生物信息專家、基因?qū)W家、遺傳學(xué)家進(jìn)行審查、校驗和手動注釋。它們都是歐洲生物信息學(xué)研究所Hugo基因命名委員會的人類基因符號列表所用的符號。
佳學(xué)基因在生物信息分析培訓(xùn)中指出,GSEA和其他基于基因集的分析方法的有用性取決于MSigDB等獨(dú)立基因集的可用性。隨著時間的推移,這些數(shù)據(jù)量不斷增長可以地反映并覆蓋人體內(nèi)的生物學(xué)過程。但是這一分析方法也有不足,需要基因解碼過程來彌補(bǔ)。這些不足源于與更大范圍的基因集相關(guān)的內(nèi)在冗余和異質(zhì)性。
佳學(xué)基因的分析表明,冗余以不同的形式存在。例如,基因集可能基因組成中共同都有的一大部分。另一種更微妙的冗余形式是基因集的部分重疊,但它們的注釋指的是相似或相同的生物過程時。在后一種情況下,基因集實(shí)際上可能代表相同過程的部分轉(zhuǎn)錄結(jié)果,在這兩種情況下,基因集可能獲得相似的GSEA。作為這種冗余的結(jié)果,基因集富集分析可以產(chǎn)生一長串具有統(tǒng)計意義的結(jié)果,這些結(jié)果在本質(zhì)上是相同的生物過程中多次出現(xiàn)。此外,許多得分高但重疊或冗余的基因集可以占據(jù)結(jié)果集的頂部,并有效地隱藏其他可能相關(guān)的結(jié)果。在這種情況下,人們很容易忽視重要和相關(guān)的發(fā)現(xiàn),因此無法充分發(fā)揮GSEA的潛力。此外,生物過程在基因集列表頂部的過度表達(dá)可能會扭曲富集分?jǐn)?shù)分布的尾部,從而增加代表相同信號的得分賊高的基因集的顯著性。
佳學(xué)基因在培訓(xùn)過程中指出,作為基因檢測的數(shù)據(jù)庫分析方法和第二個困難來自基因組內(nèi)的異質(zhì)性。例如,給定基因集中的基因并不總是一致或者是內(nèi)在一致的。這可能是由多個原因造成的:環(huán)境依賴性引起的變化、生物反應(yīng)的多種模式的存在、從實(shí)驗或計算中獲得基因集的原始數(shù)據(jù)集中的內(nèi)在變化、人工治療的局限性,或者,與相關(guān)生物過程相關(guān)的生物分辨率較差等都會影響基于數(shù)據(jù)庫的基因檢測結(jié)果注釋方法。
在基于數(shù)據(jù)庫的分析策略中,佳學(xué)基因及其組成機(jī)構(gòu)采用了一種的MSigDB“標(biāo)志性”基因集,并顯示了新的策略可以克服這些挑戰(zhàn)。這些標(biāo)志性基因集是通過一種混合方法生成的,該方法將自動計算程序與手動專家管理相結(jié)合。計算方法識別基因集重疊,并生成它們的一致代表。手動校驗關(guān)鍵性地利用了領(lǐng)域?qū)<抑R,以便:i)將生物學(xué)表征及研究對象分配給原始重疊基因集的組,ii)識別用于完善和驗證特征標(biāo)記的表達(dá)數(shù)據(jù),以及iii)正確注釋完善的特征標(biāo)記。這些特征通過強(qiáng)調(diào)顯示協(xié)調(diào)表達(dá)并代表明確定義的生物過程的基因來總結(jié)多個基因集的信息,從而減少變異和冗余,并為GSEA分析提供更好的生物空間。