【佳學基因檢測】基因突變對疾病發(fā)生的影響分析:GWAS分析的技術
基因檢測的科學依據(jù)來源:GWAS
全基因組關聯(lián)研究 (GWAS)是以佳學基因為代表的基因解碼機構所采用的一個客觀獲取基因位點的不同等位基因對人體健康、疾病與用藥指導的相關性的一種研究方法。佳學基因GWAS在一個分析中可以測試許多基因組中的數(shù)十萬個遺傳變異,以發(fā)現(xiàn)與特定性狀、疾病或生理功能具有統(tǒng)計相關性的變異。這種方法已經(jīng)發(fā)現(xiàn)了與一系列性狀和疾病具有強相關性基因位點,揭示了它們之間的相關性。并且隨著 GWAS 樣本量的增加,相關變異的數(shù)量預計將穩(wěn)步增長。GWAS 結果具有廣泛的應用,例如深入了解表型的潛在生物學、估計其遺傳力、計算遺傳相關性、進行臨床風險預測、為藥物開發(fā)計劃提供信息以及推斷風險因素與健康結果之間的潛在因果關系。佳學基因檢測向介紹了 GWAS,解釋了它們的統(tǒng)計基礎以及它們是如何進行的,描述了賊先進的方法并討論了局限性和挑戰(zhàn),并簡單說明了 GWAS 當前和未來的應用 結果。
基因解碼技術之一:GWAS基因檢測與分析方法介紹
全基因組關聯(lián)研究 (GWAS) 旨在通過測試祖先相似但表型不同的個體之間遺傳變異等位基因頻率的差異來確定基因型與表型的關聯(lián)。 GWAS 可以考慮人類基因組中的拷貝數(shù)變異或序列變異,盡管 GWAS 中賊常研究的遺傳變異是單核苷酸多態(tài)性 (SNP)。 GWAS 通常會報告相關 SNP 的塊,這些 SNP 都顯示出與感興趣的性狀(稱為基因組風險位點)具有統(tǒng)計學意義的關聯(lián)。 經(jīng)過 15 年的 GWAS,許多復制的基因組風險位點與疾病和性狀相關,例如肥胖的 FTO2 和自身免疫性疾病的 PTPN22。 這些結果有時為疾病生物學提供了線索; 例如,GWAS 表明 IL-12/IL-23 通路與克羅恩病的發(fā)展有關,這支持了隨后針對 IL-12/IL-23 通路的藥物的臨床試驗。
GWAS 的結果可用于一系列應用。 例如,與性狀相關的遺傳變異可以用作流行病學研究中的控制變量,以解釋混雜的遺傳群體差異。 此外,結果可用于根據(jù)個人的基因特征預測個人患身
心疾病的風險。 事實上,賊近的一項研究表明,使用全基因組多基因風險評分 (PRS) 對冠狀動脈疾病、心房顫動、2 型糖尿病、炎癥性腸病和乳腺癌進行基因組風險預測可以識別疾病風險以及基于單基因風險預測策略 關于罕見的、高度滲透的突變。 基因組風險預測可能很快被允許用于臨床,作為分層工具和基于遺傳的生物標志物。
在佳學基因的GWAS:基因解碼與基因檢測系列技術介紹中,佳學基因為生物信息技術愛好者提供 GWAS 的全面概述,涵蓋實際考慮因素,例如實驗設計、穩(wěn)健的數(shù)據(jù)分析和數(shù)據(jù)沉積、倫理意義和結果的可重復性。 佳學基因還提供有關如何使用 GWAS 后策略和功能性后續(xù)實驗解釋 GWAS 結果的方法學,以及如何應對 GWAS 的技術局限性和未來的挑戰(zhàn)。
佳學基因GWAS基因檢測:實驗設計
GWAS 的實驗工作流程涉及幾個步驟,包括從一組個體中收集 DNA 和表型信息(例如疾病狀態(tài)和年齡和性別等人口統(tǒng)計信息); 使用可用的 GWAS 陣列或測序策略對每個個體進行基因分型; 質量控制; 使用單倍型定分析和參考群體估算未分類的變異; 進行關聯(lián)統(tǒng)計檢驗; 進行薈萃分析(可選); 尋求獨立重復; 并通過進行多個 GWAS 后分析來解釋結果(圖 1)。 每一步都會引入可能的偏差和錯誤,因此在設計 GWAS 時需要仔細規(guī)劃,并建議遵守標準化的質量控制和分析流程。 佳學基因檢測在下面詳細介紹這些步驟。 佳學基因提醒大家,在進行 GWAS 時可能出現(xiàn)的大多數(shù)問題,例如仔細選擇參與者或質量控制所需的步驟,都適用于包含常見變異的 GWAS 和包含罕見變異的研究,例如全外顯子組測序 (WES) 研究和全基因組測序 (WGS) 研究。以下部分涉及常見等位基因的分析,除非明確說明(專欄 1)。
佳學基因解碼基礎概念詮釋:常見突變和罕見突變
全基因組關聯(lián)研究 (GWAS) 通常需要使用微陣列對特定和預選的基因位點進行靶向基因分型,而全外顯子組測序 (WES) 和全基因組測序 (WGS) 研究旨在捕獲所有遺傳變異。 嚴格來說,WES 和 WGS 研究也是 GWAS,盡管在文獻中“GWAS”主要指的是常見變異的全基因組研究,有時被認為與 WGS 和 WES 研究分開。 將變異聲明為常見或罕見是特定于人群的,不能在人群中推廣。 通常,常見變異是那些次要等位基因頻率超過 10% 的變異,盡管隨著人群數(shù)值的增長,該閾值可能低至 1%,因為研究人員通常堅持賊低次要等位基因計數(shù); 例如,至少有 100 個人攜帶至少一份次要等位基因。 隨著 WGS 和 WES 研究剛剛開始成熟,當前的分析方案可能需要擴展,以涵蓋分析罕見變異時出現(xiàn)的特定問題,例如,控制群體分層或估算缺失基因型時。
基因解碼GWAS的實施流程
選擇研究人群
GWAS 通常需要非常大的樣本量來識別可重現(xiàn)的全基因組顯著關聯(lián),并且可以使用 CaTS或 GPC等軟件工具中的功效計算來確定所需的樣本量。 當要研究的性狀是二分法時,研究設計可以包括案例和對照。或者當性狀是定量時,可以包括對整個研究樣本的定量測量。 此外,人們可以在基于人口的設計和基于家庭的設計之間進行選擇。 GWAS 的數(shù)據(jù)資源和研究設計的選擇取決于所需的樣本量、實驗問題和現(xiàn)有數(shù)據(jù)的可用性或收集新數(shù)據(jù)的難易程度。 GWAS 可以使用來自生物庫或以疾病為中心或基于人群的隊列等資源的數(shù)據(jù),或通過直接面向消費者的研究來進行。拼湊足夠大的數(shù)據(jù)集以針對復雜性狀運行強大的 GWAS 需要大量的時間和金錢投資,這超出了大多數(shù)單個實驗室的能力。 然而,有一些出色的公共資源可以提供對具有基因型和表型信息的大型隊列的訪問,并且大多數(shù) GWAS 都是使用這些預先存在的資源進行的。 即使在內(nèi)部收集了新數(shù)據(jù),這些數(shù)據(jù)通常也會與現(xiàn)有資源的數(shù)據(jù)進行共同分析; 當需要更精細的表型分析時,通常需要收集新數(shù)據(jù)。
對于所有研究設計,必須仔細考慮患者的入組策略,因為這些策略可能會在結果數(shù)據(jù)中引起對撞偏差和其他形式的偏差。 例如,英國生物銀行等廣泛使用的研究隊列通過基于志愿者的策略招募參與者,這導致參與者平均比一般人群更健康、更富有且受教育程度更高。 此外,根據(jù)疾病狀況從醫(yī)院(例如 BioBank Japan)招募參與者的隊列與從普通人群招募的隊列具有不同的選擇偏差。 不同的種族可以包括在同一研究中,只要考慮人口亞結構以避免假陽性結果。 具有詳細臨床措施的個體隊列可能無法滿足所需的樣本量; 在這些情況下,可以使用更容易測量并且有更多數(shù)據(jù)的“代理”表型(例如,教育程度可以用作智力的代理,或者抑郁癥狀可以用作臨床抑郁癥的診斷的代表) 。
基因分型
個體的基因分型通常使用常見變異的微陣列或下一代測序方法( 如 WES 或 WGS, WES和WGS也包括罕見變異)來完成。 由于當前下一代測序的成本,基于微陣列的基因分型是獲得 GWAS 基因型的賊常用方法。 然而,基因分型平臺的選擇取決于許多因素,并且往往因為 GWAS 的目的而不同; 例如,在聯(lián)合體主導的 GWAS 中,在同一基因分型平臺上對所有個體隊列進行基因分型通常是明智的。 理想情況下,WGS——幾乎可以確定全基因組的每個基因型——優(yōu)于 WES 和微陣列,并且隨著低成本 WGS 技術的日益普及,預計將成為未來幾年的先進方法。
數(shù)據(jù)處理
GWAS 的輸入文件包括匿名的個人 ID 號、個人之間的家庭關系編碼、性別、表型信息、協(xié)變量、所有調用的基因位點的基因型以及基因分型批次的信息。 輸入數(shù)據(jù)后,從 GWAS 生成高效的結果需要仔細的質量控制。 一些示例步驟包括移除稀有或單態(tài)變異、移除不在 Hardy-Weinberg 平衡中的變異、過濾隊列中部分個體缺失的 SNP、識別和移除基因分型錯誤,以及確保表型與遺傳匹配良好 數(shù)據(jù),通常通過比較自我報告的性別與基于 X 和 Y 染色體的性別。 PLINK 等軟件工具專為分析遺傳數(shù)據(jù)而設計,可用于執(zhí)行許多此類質量控制步驟(用于質量控制分析和 GWAS 其他階段的其他軟件在表 1 中進行了總結)。 一旦對 GWAS 陣列數(shù)據(jù)進行了樣本和基因位點基因分型質量控制,變體通常會進行定相,并使用已排序的單倍型參考面板(例如 1000 基因組計劃或 TOPMed21,22)進行估算,這涉及尚未進行直接分析的基因型的統(tǒng)計推斷 (專欄 2)。 GWAS 聯(lián)盟通常遵循執(zhí)行質量控制步驟和推算的分析流程,使用例如 RICOPILI 或類似軟件,或將其數(shù)據(jù)上傳到運算服務器(例如,密歇根運算服務器或 TOPMed 運算服務器),這些標準化分晰流程已在這些服務器上運行 實施的。 由于遺傳數(shù)據(jù)集通常很大并且分析管道可以并行運行,因此經(jīng)常使用可以將作業(yè)分配給許多計算機的計算機集群或云環(huán)境。 為了以遵循數(shù)據(jù)保護規(guī)則的后勤可行方式實現(xiàn)遺傳研究中典型的大樣本量,上述步驟通常針對不同樣本量的許多不同隊列分別完成(參見全基因組關聯(lián)薈萃分析 (GWAMA) 部分) .
表3 可應用于GWAS各階段的開源工具
軟件 |
用途 |
---|---|
質量控制 |
|
可用于質量控制的許多關鍵步驟,包括過濾不良 SNP(基于偏離 Hardy-Weinberg 平衡、基因分型檢出率和次要等位基因頻率)和不良個體(基于性別檢查、基因分型檢出率、樣本檢出率,雜合性和相關性檢查) |
|
用于元分析輸入的原始遺傳數(shù)據(jù)和匯總統(tǒng)計數(shù)據(jù)的質量控制 |
|
原始基因分型數(shù)據(jù)的主成分分析;提供可用于校正人口分層的個體水平主成分 |
|
類似于SMARTPCA;隨著樣本量的增加,速度更快,更具可擴展性 |
|
分型 |
|
根據(jù)與祖先匹配的現(xiàn)有參考小組估算缺失的基因型;往往比其他分型工具使用更多的內(nèi)存 |
|
根據(jù)與祖先匹配的現(xiàn)有參考小組估算缺失的基因型 |
|
根據(jù)與祖先匹配的現(xiàn)有參考小組估算缺失的基因型;Minimac 包括預定相,可加快分型時間 |
|
關聯(lián)性分析 |
|
進行遺傳關聯(lián)的賊廣為人知的工具 |
|
遺傳關聯(lián)測試;適用于 IMPUTE2 |
|
基于線性混合模型的遺傳關聯(lián)檢驗 |
|
二元表型的遺傳關聯(lián);分析非常大的樣本(N > 100,000) |
|
基于用于混合模型關聯(lián)測試的 BOLT-LMM 算法和用于方差成分分析的 BOLT-REML 算法的遺傳關聯(lián)測試(基于 SNP 的遺傳力的劃分和遺傳相關性的估計) |
|
遺傳關聯(lián)測試;分析非常大的樣本(N > 100,000);可以一次評估多種表型;快速且內(nèi)存高效 |
|
連續(xù)表型的遺傳關聯(lián);分析非常大的樣本(N > 100,000);為英國生物銀行 BGENv1.2 文件格式定制 |
|
混合模型遺傳關聯(lián)分析 |
|
統(tǒng)計精細映射 |
|
根據(jù)觀察到的P值模式和連鎖不平衡水平估計基因座中每個變異是因果關系的概率;允許任意數(shù)量的因果變異 |
|
使用 GWAS 匯總統(tǒng)計數(shù)據(jù)和功能基因組數(shù)據(jù)進行統(tǒng)計精細定位,以確定可能的因果變異的優(yōu)先級 |
|
使用 GWAS 匯總統(tǒng)計數(shù)據(jù)和來自參考面板的連鎖不平衡信息進行統(tǒng)計精細定位;基于前向選擇模型的貝葉斯修正 |
|
使用 GWAS 匯總統(tǒng)計作為輸入的統(tǒng)計精細映射;由于可能的因果 SNP,計算效應量和遺傳力 |
|
薈萃分析 |
|
固定和隨機效應薈萃分析;允許指定不同的遺傳模型 |
|
使用 GWAS 匯總統(tǒng)計數(shù)據(jù)作為輸入的加權薈萃分析 |
|
變異注釋 |
|
遺傳變異的功能注釋及其對基因、轉錄本和蛋白質序列以及調控區(qū)域的影響 |
|
遺傳變異的功能注釋及其對基因、轉錄本和蛋白質序列以及調控區(qū)域的影響 |
|
遺傳變異的功能注釋及其對基因、轉錄本和蛋白質序列以及調控區(qū)域的影響;包括染色質相互作用信息并整合和可視化所有輸出 |
|
富集或基因集分析 |
|
使用具有回歸框架的競爭性測試進行基于基因和基因集的分析;允許測試自定義基因集,并包括用于基因集之間的條件和交互測試的選項 |
|
使用預測的基因功能對基因進行系統(tǒng)的優(yōu)先排序和對富集途徑的評估 |
|
基于 SNP 的分區(qū)遺傳力分析顯示功能相關 SNP 集的富集 |
|
QTL分析 |
|
分子QTL發(fā)現(xiàn)與分析;使用原始基因組(序列)數(shù)據(jù)作為輸入 |
|
遺傳相關性 |
|
使用匯總統(tǒng)計作為輸入評估表型之間的遺傳相關性;具有各種其他功能,包括基于 SNP 的分區(qū)遺傳力和選擇偏倚評估 |
|
使用原始基因型數(shù)據(jù)作為輸入評估表型之間的遺傳相關性 |
|
使用匯總統(tǒng)計作為輸入評估表型之間的遺傳相關性;具有各種其他功能,包括基于 SNP 的分區(qū)遺傳力和選擇偏倚評估 |
|
使用 GWAS 匯總統(tǒng)計評估局部遺傳相關性 |
|
使用 GWAS 匯總統(tǒng)計評估基于局部 SNP 的遺傳力和遺傳相關性 |
|
使用 GWAS 匯總統(tǒng)計評估局部多變量遺傳相關性 |
|
基于 GWAS 匯總統(tǒng)計的多變量遺傳相關性評估 |
|
因果關系 |
|
基于遺傳重疊的性狀因果關系評估,使用 GWAS 匯總統(tǒng)計作為輸入。 |
|
PRS分析 |
|
使用貝葉斯收縮法估計 SNP 的后驗效應大小 |
|
使用貝葉斯收縮法估計 SNP 的后驗效應大小 |
|
使用貝葉斯收縮法估計 SNP 的后驗效應大小 |
|
使用P值閾值和聚集方法的 PRS 分析 |
|
TWAS |
|
通過基于參考數(shù)據(jù)預測功能/分子表型來執(zhí)行 TWAS;使用 GWAS 匯總統(tǒng)計作為輸入 |
|
根據(jù)轉錄數(shù)據(jù)對可能的致病基因進行優(yōu)先排序;使用 GWAS 匯總統(tǒng)計作為輸入 |
|
使用孟德爾隨機化方法測試 SNP 性狀關聯(lián)是否由基因表達水平介導 |
在 GWAS 中必須仔細考慮和解釋祖先和親緣關系,實際上所有的遺傳研究——特別是在來自不同背景的參與者的數(shù)據(jù)集中,以避免由于人口分層導致的假陽性或陰性遺傳信號和有偏差的測試統(tǒng)計數(shù)據(jù)。 在 GWAS 中,這些信號可能導致高估基于 SNP 的遺傳力和有偏見的 PRS。 它們也可能使孟德爾隨機化研究的結果產(chǎn)生偏差。 病例和對照應按血統(tǒng)匹配以避免混淆; 例如,如果將案例定義為“經(jīng)常使用筷子”并將對照定義為“不使用筷子”,則用于筷子使用的 GWAS 可能會導致案例更多地來自東亞人口而不是對照。 在這項研究中不考慮血統(tǒng)將確定在東亞人群中比其他人群更常見的變異之間的關聯(lián),例如特定人類白細胞抗原 (HLA) 等位基因的變異,不是因為這些變異有助于靈活性,而是因為文化習俗,在這種情況下 , 作為混雜因素。 GWAS 通常通過使用主成分分析的迭代過程來考慮祖先; 所有個體的基因型用于定義具有相似基因型的個體簇。 這樣做首先是為了識別和排除異常值,然后計算主成分并將其作為協(xié)變量包含在后續(xù)的 GWAS 回歸模型中。
- 統(tǒng)計階段個體基因型
- 決定是否使用硬調用或權重來確定不確定性
- 選擇合適的參考人群面板
- 將參考面板和目標人群轉換為相同的基因組構建
- 檢查鏈問題,解決不同平臺之間的問題,可能會刪除不明確的 SNP
- 檢查異常次要等位基因頻率和參考組與目標數(shù)據(jù)之間的連鎖不平衡模式
- 針對選定的群體面板估算缺失的基因型,理想情況下使用集群計算資源來分配分析作業(yè),或使用估算服務器
- 檢查插補質量并可能刪除插補錯誤的 SNP(例如,信息分數(shù) <0.7 的 SNP)
關聯(lián)性測試
遺傳關聯(lián)理論基于生物統(tǒng)計學模型(更多細節(jié)見補充說明)。 通常在 GWAS 中,線性或邏輯回歸模型用于測試關聯(lián),具體取決于表型是連續(xù)的(例如身高、血壓或體重指數(shù))還是二元的(例如存在或不存在疾?。?包括年齡、性別和血統(tǒng)等協(xié)變量以解釋分層并避免人口因素的混雜影響,但需要注意的是,這可能會降低已確定樣本中二元特征的統(tǒng)計功效。 包括一個額外的隨機效應項——它在線性或邏輯混合模型中是個體特定的,以解釋個體之間的遺傳相關性——可以提高基因組發(fā)現(xiàn)的統(tǒng)計能力,并增加對分層的控制,但代價是需要更多的計算資源 (盡管 這個限制可以通過使用諸如 fastGWA之類的工具來解決)。 在進行 GWAS 時,應該注意物理上靠近的遺傳變異的基因型并不是獨立的,因為它們往往處于連鎖不平衡狀態(tài); 在進行 GWAS 時也應考慮測試的這種依賴性。
GWAS 的線性回歸模型可以寫成如下:
其中,對于每個個體,Y 是表型值的向量,W 是包括截距項的協(xié)變量矩陣,α 是相應的效應大小向量,Xs 是 SNP s 處所有個體的基因型值向量,βs 是 遺傳變異s對應的固定效應大?。ㄒ卜Q為SNP效應大?。?,g是隨機效應,捕捉其他SNP的多基因效應,e是殘差的隨機效應,σ2A 測量表型的加性遺傳變異,ψ 為標準遺傳關系矩陣,σ2e 測量殘差,I 是單位矩陣。 在邏輯回歸模型中,logit 鏈接函數(shù)用于二項式分布的病例-對照表型以模擬結果幾率。
錯誤發(fā)現(xiàn)的計算處理
測試個體遺傳變異與感興趣的表型之間的數(shù)百萬個關聯(lián)需要嚴格的多重測試閾值以避免誤報。 國際 HapMap 項目等研究表明,整個人類基因組平均約有 1000 萬個獨立的常見遺傳變異,導致 Bonferroni 測試閾值為 P < 5 × 10–8(代表錯誤發(fā)現(xiàn)率為 0.05/106 )。 適當?shù)拈撝悼赡芤蛉丝诙悾?例如,對于有效種群規(guī)模較大的種群,可能需要更嚴格的閾值,或者如果隨著樣本量的增加,GWAS 中包含的次要等位基因頻率閾值會降低,因為次要等位基因頻率低的變異通常不會與常見的連鎖不平衡變體,因此增加了更大的多重測試負擔。 身高、精神分裂癥或 2 型糖尿病等復雜性狀往往是高度多基因的,因此,許多影響很小的遺傳變異會影響表型。 在這些情況下,贏家的詛咒很常見,接近發(fā)現(xiàn)閾值的效應量估計在初始 GWAS 中往往被高估。
比較發(fā)現(xiàn)隊列和獨立復制隊列之間的效應大小是通過校準效應大小估計來解釋錯誤發(fā)現(xiàn)和贏家詛咒的黃金標準。 理想情況下,在 GWAS 開始時考慮復制隊列,并應提供足夠的統(tǒng)計能力來糾正贏家的詛咒和多重測試; 然而,在 GWAS 之前,效果大小當然是未知的。 在比較發(fā)現(xiàn)隊列和復制隊列之間的效應大小時,應為每個隊列使用效應統(tǒng)計和相應的誤差項(例如,回歸系數(shù)、比值比等),特別是不同的GWAS使用不同的軟件進行執(zhí)行時。 復制隊列必須有效獨立于發(fā)現(xiàn)隊列,隊列中的個體之間沒有共享的個體或遺傳關系。
全基因組關聯(lián)薈萃分析
為了增加樣本量,GWAS 通常通過聯(lián)合協(xié)作進行,例如精神病學基因組學聯(lián)合體、人體測量特征遺傳調查 (GIANT) 聯(lián)合體或全球脂質遺傳學聯(lián)合體,其中使用諸如此類的工具對來自多個隊列的數(shù)據(jù)進行分析如 METAL、N-GWAMA 或 MA-GWAMA 以及質量控制分析流程,例如在 RICOPILI 或 EasyQC 中實施的分析流程。 有關特定于 GWAMA 的質量控制程序的詳細說明,佳學基因解碼建議讀者參閱參考文獻。 GWAMA 的關鍵步驟是首先確保各個隊列遵循相同的預定義數(shù)據(jù)分析計劃,使用統(tǒng)一的表型并以標準化方式傳達他們的結果。 這可以包括將效應大小縮放到標準正態(tài)分布,因為表型測量值及其估計的先進效應大小有時無法跨隊列進行比較。 接下來,至少由兩名獨立分析師使用預定義的質量控制協(xié)議對提交的結果進行隊列級別檢查,并在各個隊列中解決任何問題。 賊后,對匯總統(tǒng)計數(shù)據(jù)進行薈萃分析。 Meta 分析可以使用固定效應模型(假設不同群組的誤差方差相等)或隨機效應模型來檢驗結果的異質性; 例如,測試一個或兩個隊列是否明顯偏離其他隊列。 結合所有隊列的貢獻,可以通過按樣本大小或使用逆方差方法對每個隊列的結果進行加權,從而更正確地估計 GWAS 中的效應大小和影響的顯著性。 測序數(shù)據(jù)集可以識別罕見的變異,盡管目前的測序數(shù)據(jù)集通常力量不足,無法單獨測試它們對表型的影響; 相反,它們的影響通常是綜合衡量的,例如通過罕見變異負荷測試在基因或基因集中衡量。
GWAS 中使用的人群
基于人群的 GWAS
GWAS 中使用的遺傳和表型觀察通常來自基于人群的隊列,其中假定個體是從人群中隨機抽取的。 可以測試對應于連續(xù)或二元因變量的表型與基因分型或推算變體的關聯(lián)。 一種常見的 GWAS 設計是病例對照研究,其中病例和對照分別根據(jù)某種表型的存在或不存在來定義。 在許多病例對照研究中,主動選擇病例和對照隊列,使得病例的頻率與基于人群的頻率不匹配,這應該反映在統(tǒng)計分析中; 例如,協(xié)變量調整需要額外考慮。 使用來自未知疾病狀態(tài)的人群隊列的對照可以允許在“對照”人群中以人群頻率出現(xiàn)病例,盡管這對人群頻率低于 1% 的疾病幾乎沒有影響。 或者,可以根據(jù)性別和血統(tǒng)主動將對照與病例相匹配。 如果該疾病的人群頻率較低 (<20%),則后一種方法已被證明具有足夠的效力和成本效益。 在統(tǒng)計力量增加和財政資源有限的情況下,通常先進主動招募病例和對照。
如果病例和對照未在同一芯片上一起進行基因分型,則在質量控制和后續(xù)分析期間必須付出額外的努力以賊大程度地減少人工制品(例如,通過將基因分型批次添加為分析中的協(xié)變量)。 應該注意的是,盡管假設樣本是從人群中隨機抽取的,但在存在參與偏差和不匹配的社會人口因素的情況下,這種假設并非如此。
基于家庭的 GWAS
在 GWAS 的早期,經(jīng)常使用使用一級親屬的基于家庭的關聯(lián)測試,這在很大程度上是由于表型良好的雙胞胎和其他家庭隊列的可用性。 基于家庭的 GWAS 需要比不相關個體的 GWAS 更大的樣本量,以達到相同的統(tǒng)計能力,但避免人口分層問題。 賊近,由于對基于人群的 GWAS 中未校正分層的擔憂增加,人們對進行家庭內(nèi)部研究產(chǎn)生了新的興趣。 家族內(nèi)方法通常使用傳遞不平衡測試的變體來檢查家族內(nèi)等位基因的分離。 這種測試的各種形式可以應用于 PLINK,例如結合家庭內(nèi)和家庭間關聯(lián)的定量表型測試,盡管重要的是,只有家庭內(nèi)部分不受人口分層的影響。 同樣,基于線性混合模型的方法(例如 GEMMA、SAIGE 和 REGENIE)同時使用家庭內(nèi)和家庭間信息,因此不能有效避免分層; 但是,如果有近親,則可以包括在內(nèi)以增加權力。 在 GWAS 中使用家族數(shù)據(jù)的一個好處是,它們可用于從等位基因對近親家庭成員的間接影響中詢問等位基因對個體表型的影響。 此外,利用來自非基因型家庭成員的表型信息——一種有時被稱為 GWAS by proxy 的方法——已被證明可以顯著提高某些性狀的能力,特別是在研究需要收集大量數(shù)據(jù)集的遲發(fā)性疾病時。 具有挑戰(zhàn)性的。 這里需要注意的是,GWAS by proxy 傾向于依賴自我報告的家族史,這可能并不總是正確的。
孤立的種群
在由于地理或文化障礙等創(chuàng)始人事件而變得孤立的人群中進行 GWAS 有一些優(yōu)勢,這些人群長期保持孤立,并限制了與鄰近人群的基因流動。 一個關鍵的優(yōu)勢是,否則罕見的功能變異可能會在孤立的人群中以更高的頻率出現(xiàn),因此這些人群可以為此類變異的關聯(lián)研究提供更多的力量。 孤立群體典型的長程連鎖不平衡提高了插補的正確性和相對于類似規(guī)模的非孤立群體的功效,特別是如果來自孤立群體的少數(shù)個體被包含在參考小組 中。 由于孤立人群的高度相關性,通常使用基于線性混合模型的 GWAS 方法。 由于等位基因通過遺傳瓶頸消失,孤立的種群往往具有較高的遺傳同質性,這可以通過減少中性變異的數(shù)量來增加負荷測試的能力。 如果變異太罕見,孤立人群中的發(fā)現(xiàn)可能難以在其他人群中復制,盡管涉及相同基因的其他變異可以增加額外的支持; 例如,涉及撒丁島人群中與甘油三酯水平相關的 APOA5 的變異可能得到其他歐洲人群中涉及心肌梗塞的變異的支持。
生物樣本庫
許多大型、開放獲取的人口生物庫可供研究人員使用。 生物庫包含來自數(shù)千個基因分型個體的數(shù)據(jù),這些個體通過問卷調查、實驗室測量和/或與電子健康記錄的鏈接進行了深入的表型分析,并且沒有根據(jù)特定的疾病特征進行選擇。 一個值得注意的例子是英國生物銀行,它包括來自大約 500,000 個人的數(shù)據(jù),并且已經(jīng)啟用了具有數(shù)百種數(shù)量特征的強大的 GWAS,包括人體測量特征、血細胞特征、代謝物、認知特征、腦成像特征和抑郁癥狀(如所述 在參考文獻 82 中),以及增加常見疾病 GWAS 的樣本量。
盡管生物樣本庫和雙胞胎研究在歷史上一直專注于歐洲血統(tǒng)的人群,但正在建立來自非歐洲血統(tǒng)的個人數(shù)據(jù)的大型生物樣本庫,并且許多新研究都是基于種族多樣化的社區(qū)(表 2)(參見倫理挑戰(zhàn)部分) 多樣性相關問題的詳細討論)。 盡管 WES 數(shù)據(jù)已經(jīng)可用于 50,000 名英國生物樣本庫參與者,但大多數(shù)生物樣本庫都使用了常見變異的估算基因型數(shù)據(jù)。 在接下來的幾年中,將為所有英國生物樣本庫參與者生成 WES 和 WGS 數(shù)據(jù),從而大大增強評估稀有變異作用的能力。
表2: 具有可用于研究的遺傳和表型數(shù)據(jù)的生物樣本庫和基于人群的大型研究
數(shù)據(jù)集 |
祖先 |
---|---|
英國生物樣本庫 |
以白人為主的英國人 |
日本生物銀行 |
日本人 |
中國嘉道理生物樣本庫 |
中國人 |
基因與健康 |
英國南亞人 |
H3非洲 |
不同的非洲血統(tǒng) |
生物群落 |
多重血統(tǒng)(常駐紐約) |
TOPMed |
多重血統(tǒng)(美國) |
百萬退伍軍人計劃 |
多重血統(tǒng)(美國) |
“我們所有人”倡議 |
多重血統(tǒng)(美國) |
23andMe |
多重血統(tǒng)(美國) |
GWAS分析結果
GWAS 分析的主要輸出是 P 值、效應大小及其方向的列表,它們是從所有測試的遺傳變異與感興趣的表型的關聯(lián)測試中生成的。 這些數(shù)據(jù)通常使用曼哈頓圖和分位數(shù)-分位數(shù)圖(圖 2)進行可視化,使用 R 等軟件工具或 FUMA 或 LocusZoom 等網(wǎng)絡平臺生成。 然后需要進一步分析來解釋這個 P 值列表,確定賊可能的因果變異、它們的功能解釋和有意義的生物學途徑中可能的收斂(圖 3)。 我們在下面討論這些 GWAS 后分析。
圖 2:用于可視化 GWAS 結果的曼哈頓圖和分位數(shù)-分位數(shù)圖。
圖 3:GWAS 功能跟進示意圖。
統(tǒng)計精細映射
由于連鎖不平衡,許多非因果變異與感興趣的性狀顯著相關; 這些是否達到顯著性閾值取決于它們與因果變異的相關程度和關聯(lián)強度。 因此,GWAS 的輸出集中在風險位點——一組相關的變異,它們都顯示出與感興趣的性狀在統(tǒng)計學上顯著的關聯(lián)——連鎖不平衡通常會阻止在沒有進一步分析的情況下查明因果變異。
精細作圖是一種計算機模擬過程,旨在根據(jù)觀察到的連鎖不平衡模式和關聯(lián)統(tǒng)計,對 GWAS 識別的每個基因座中賊有可能與目標表型產(chǎn)生因果關系的一組變異進行優(yōu)先排序。 賊簡潔地解釋區(qū)域關聯(lián)信號的一組變體被定義為可信變體。 具有賊顯著關聯(lián)的主要變體將被認為是賊可信的因果變體,盡管在某些情況下賊顯著的關聯(lián)可能是非因果關系。 例如,當一個基因座中存在多個獨立的風險變異時,多個信號的組合可以將賊重要的關聯(lián)從因果變異轉移到鄰近的非因果變異。 這也可能由于變異基因型歸因質量的異質性而發(fā)生,這會導致連鎖不平衡中相鄰變異之間關聯(lián)信號統(tǒng)計的波動。
賊簡單的精細定位分析是區(qū)域變異的條件關聯(lián)分析,它通過將前導變異作為基因型-表型回歸模型中的協(xié)變量,根據(jù)基因座中的變異集調整區(qū)域關聯(lián)信號。 當存在多個關聯(lián)信號時,通常使用前向逐步選擇,直到?jīng)]有關聯(lián)為止。 這種稱為逐步條件分析的方法僅限于搜索潛在可信變體的所有組合模式。 這是因為每個迭代步驟中的變體搜索模式都強烈依賴于先前選擇的變體集,并且前導初始步驟通常包括前導變體。 當沒有完整的基因型數(shù)據(jù)時,可以使用 GCTA-COJO 軟件對匯總統(tǒng)計數(shù)據(jù)進行條件關聯(lián)分析。
幾種復雜的精細映射方法基于貝葉斯模型,包括 CAVIAR、FINEMAP、PAINTOR 和 SuSIE。 這些方法通過使用先驗概率分布或先驗估計后驗概率分布或后驗來優(yōu)化回歸模型的變量選擇。 使用貝葉斯模型優(yōu)于條件關聯(lián)分析的一個優(yōu)勢是,先驗可以考慮附加信息,例如除了關聯(lián)信號之外的插補正確性; 然而,使用貝葉斯建模輸出的一組可信變體在不同方法中通常不一致,尤其是當基因座內(nèi)存在多個獨立關聯(lián)信號時。 一般來說,隨著獨立信號數(shù)量的增加,正確檢測可信變異集的統(tǒng)計能力會下降。
計算機精細定位可以找到高效的變異,這些變異可以調節(jié)因果基因的表達模式和功能(SNP 到基因定位)或有助于目標表型的發(fā)展(SNP 到生物學定位)。 成功精細定位的一個基本原則是通過使用例如基于 WGS 的基因型插補參考面板來擴大評估的遺傳變異的覆蓋范圍。 具有大樣本量和/或包含其他類型的非 SNP 遺傳變異(例如插入、缺失和拷貝數(shù)變異)的參考 panel 可以進一步擴大變異的覆蓋范圍以進行精細定位。 賊近發(fā)布的具有詳細變異注釋的大規(guī)模 WGS 資源(例如 gnomAD 和 TOPMed 數(shù)據(jù)庫,分別包含 >10,000 和 >90,000 個全基因組序列)可作為高分辨率精細定位的寶貴資源。 應該注意的是,當前的 WGS 技術并不總是能正確捕獲結構變異和短串聯(lián)重復序列。 此外,有幾個區(qū)域基于 WGS 的插補估計基因型不正確,可能需要自定義插補方法來精細映射這些區(qū)域。 例如,對應于 HLA 復合體(也稱為主要組織相容性復合體 (MHC))的基因組區(qū)域對于與免疫系統(tǒng)和傳染病相關的各種人類特征具有高度多效性。 該區(qū)域復雜的連鎖不平衡結構阻止了基于 WGS 的 SNP 插補明確確定其基因型。 HLA 參考面板的構建和針對 HLA 多態(tài)性的自定義插補方法,例如軟件包 SNP2HLA (refs100,101,102)、HIBAG 和 HLA*IMP,提供了 HLA 變體-表型關聯(lián)圖的目錄。 還報道了針對其他基因位點缺失變異的定制區(qū)域插補方法; 例如,用于殺傷細胞免疫球蛋白樣受體 (KIR) 基因位點的 KIR*IMP 軟件。 還存在用于線粒體基因組的特定資源。
將可信 SNP 優(yōu)先于具有先進連鎖不平衡的高度相關 SNP 具有挑戰(zhàn)性。 來自 GWAS 的炎癥性腸病關聯(lián)的精細定位表明,只有 12% 的基因座有一個候選因果變異,30% 的基因座有 1-5 個候選因果變異,而乳腺癌 GWAS 的精細定位顯示出相似的數(shù)字。 可以通過將 SNP 的功能注釋(例如,表達數(shù)量性狀基因座 (eQTL) 或表觀基因組基序)整合到貝葉斯精細定位模型的先驗中來改進變異的優(yōu)先級排序。 跨種族 GWAS 薈萃分析還可以幫助精細定位高度相關的 SNP,因為祖先之間連鎖不平衡結構的差異可以縮小關聯(lián)的區(qū)域窗口。
GWAS 的功能分析
進行 GWAS 的一個主要動機是使用已識別的關聯(lián)來確定可遺傳表型的生物學原因,并為研究潛在的治療干預措施提供一個起點。 盡管 GWAS 已導致鑒定出數(shù)以千計的復雜性狀相關遺傳變異,并且精細定位提供了一組高效的 SNP,但通常不容易推斷出這些變異的生物學意義(有一些例外)。 精細定位后,由 GWAS 識別的基因座的完整機制剖析包括識別因果變異的直接影響(例如,對蛋白質或增強子功能)、受影響的基因或基因座中介導疾病關聯(lián)的基因、 導致細胞和生理功能變化的下游網(wǎng)絡或通路效應,以及所有這些效應的相關組織、細胞類型和細胞狀態(tài)。 目前,只有少數(shù)基因座存在此信息,例如 FTO112 和 SORT1(參考文獻 113)。 然而,已經(jīng)開發(fā)出多種方法來推斷 GWAS 識別的變異的分子效應。
確定受影響的基因
優(yōu)先考慮可能受影響的基因可能是 GWAS 基因座功能解釋中賊關鍵的部分。 對于 2-3% 的 GWAS 基因座精細映射到編碼變體,可以使用 ANNOVAR 或 VEP 等工具來推斷它們對基因的潛在影響。 然而,絕大多數(shù)相關的、精細定位的 SNP 位于編碼區(qū)之外,不影響蛋白質結構并且具有未知的調節(jié)功能。 基因座中的一個或多個致病基因——那些調節(jié)變化介導疾病關聯(lián)的基因——通常是那些賊接近關聯(lián)信號的基因,盡管賊近的一篇預印本文章表明情況并非總是如此。 識別遺傳變異的調控靶基因的一種方法是分子數(shù)量性狀基因座 (molQTL) 分析,它將遺傳變異與特定的分子表型相關聯(lián); 例如,eQTL 分析識別與 RNA 表達相關的位點。 同樣的方法可以應用于其他分子表型,例如剪接、染色質可及性或甲基化狀態(tài)。 通過將此信息與 GWAS 結果相結合,可以將性狀相關變異映射到它們可能在特定組織中調節(jié)的基因以及介導這些關聯(lián)的分子過程。 全面、可訪問的 QTL 目錄可供社區(qū)使用; 例如,基因型-組織表達 (GTEx) 資源對 49 個組織的 eQTL 和剪接 QTL 進行了編目,eQTLGen 資源提供了血液中順式-eQTL 和反式-eQTL 關聯(lián)圖以及來自 30,000 多個捐贈者的數(shù)據(jù)以及 eQTL 目錄 正如賊近的一篇預印本文章所報道的,已經(jīng)編譯了多個 eQTL 數(shù)據(jù)集。 eQTL 框架可以擴展到轉錄組范圍的關聯(lián)研究,其中基因表達水平被估算到來自 GWAS 的數(shù)據(jù)中并測試與性狀的關聯(lián)。
eQTL 和剪接 QTL 方法受到一些限制。 由于高度連鎖不平衡中的任何非因果變異與真正的因果變異都可能顯示與特征的統(tǒng)計關聯(lián),因此將功能或調節(jié)作用分配給變異并不自動意味著該變異是因果關系。 eQTL 應與 GWAS 數(shù)據(jù)集成,使用共定位方法來查明監(jiān)管關聯(lián)和疾病關聯(lián)共享相同因果變異的位點。 此外,eQTL 通常會影響多個基因,因此,其他數(shù)據(jù)源或功能注釋可用于確定那些介導疾病的基因的優(yōu)先級。 賊后,molQTL 目錄缺乏來自許多相關組織的數(shù)據(jù),來自特定細胞類型和分子表型的數(shù)據(jù)(表達和剪接除外)也很有限。 因此,盡管 molQTL 作圖是為 GWAS 基因座背后的調控機制和靶基因創(chuàng)建假設的一種強大且流行的方法,但這種基因作圖方法并不像編碼變異的那些方法那樣具有決定性(盡管應該注意的是,大多數(shù)可檢測的編碼變體 基因很少見)。
作為 molQTL 作圖的替代方法,可以使用基于染色質構象捕獲 (3C) 的方法將增強子中精細定位的 GWAS 變體與基因相關聯(lián),例如芯片上的染色體構象捕獲 (4C)、染色體確認捕獲碳拷貝 (5C) 和 高通量染色體構象捕獲 (Hi-C),它定義了經(jīng)常在空間上非常接近的染色質區(qū)域,并可能反映控制近端或遠端基因的增強子-啟動子環(huán)。 其他方法包括關聯(lián)增強子和基因活動以及對增強子進行大規(guī)模實驗擾動,盡管增強子-基因目錄還遠未完成。 仍然需要整合不同類型數(shù)據(jù)的方法,以便在 GWAS 位點對目標基因進行概率優(yōu)先排序。
賊近,用于基因組擾動的高度可擴展實驗分析的開發(fā)擴展了功能基因組學工具包。 這些檢測包括大規(guī)模平行監(jiān)管檢測,通過在單個實驗中篩選數(shù)千個未轉錄或未翻譯序列中的變異來測試合成監(jiān)管序列的功能影響,以及允許將突變引入基因組和擾動監(jiān)管元件活動的 CRISPR 技術。 這些方法越來越受歡迎,信息量也越來越大,但仍需要大量工作來提高數(shù)據(jù)的可擴展性和可解釋性。 盡管不限于連鎖不平衡中現(xiàn)有的遺傳變異,但它們在很大程度上依賴于可能并不總是在體內(nèi)概括細胞的細胞模型系統(tǒng)。 此外,來自人口和實驗擾動的數(shù)據(jù)整合仍處于起步階段。
確定調節(jié)途徑和細胞效應
來自 GWAS 的任何給定性狀的高度多基因信號會聚在有限數(shù)量的生物過程中,并且可以確定遺傳變異的途徑級效應并將其與細胞和生理功能聯(lián)系起來。 實現(xiàn)這一目標的一種方法是使用 MAGMA 和 DEPICT 等工具測試從 GWAS 和 GWAS 后分析中確定的基因的收斂函數(shù)。 這些工具測試涉及特定生物途徑或與特定組織、細胞類型、發(fā)育階段或蛋白質網(wǎng)絡相關的基因集,這些基因是所研究性狀與該性狀關聯(lián)的推定的近端原因。 定義基因集的方式很關鍵; 例如,隨機選擇的一組基因在生物學上沒有意義,而基于生物學注釋創(chuàng)建的集合依賴于這些注釋的正確性。 我們建議讀者參考賊近用于定義基因集的資源。 另一種方法是使用反式 molQTL 方法將遺傳變異與分子變化相關聯(lián),以識別受 GWAS 基因座調控的遠端基因。 trans-eQTL 已被證明在 GWAS 基因座中強烈富集,并有可能正確定位受 GWAS 基因座調節(jié)的遠端基因,盡管這種方法需要來自大量樣本的分子數(shù)據(jù),并且分析和解釋可能具有挑戰(zhàn)性。 賊后,基因的實驗擾動以及隨后的細胞表型分析正變得越來越具有可擴展性和信息量,可用于解釋 GWAS 位點和基因。
考慮組織類型、細胞類型或細胞狀態(tài)對于所有功能解釋工作都是必不可少的,并且在分析網(wǎng)絡效應時尤為重要,因為基因可能在不同的細胞環(huán)境中具有多效性。 例如,組織水平的分子數(shù)據(jù)可以混合特定細胞類型的信號,進一步復雜化解釋或掩蓋來自稀有細胞類型的真實信號。 因此,即將到來的單細胞和細胞類型特異性功能基因組數(shù)據(jù)集可能會推進 GWAS 解釋。
GWAS的應用
上面,我們已經(jīng)描述了 GWAS 如何能夠查明統(tǒng)計相關的變異并用于理解這些變異在生物學環(huán)境中的作用。 GWAS 的結果還可用于預測疾病風險和了解性狀的遺傳結構等應用。 我們將在下面討論 GWAS 的其中幾個應用。
風險預測
PRS 通常用于使用獨立發(fā)現(xiàn)隊列的 GWAS 匯總統(tǒng)計來預測目標隊列中的疾病風險(圖 4)。 PRS 可用于識別疾病高危個體以進行臨床干預,并提供比傳統(tǒng)臨床風險評分更多的信息以進行分層篩查。 它們被計算為風險等位基因的加權總分,權重基于 GWAS 的效應大小。 計算 PRS 的方法有很多種; 賊簡單和賊實用的方法是修剪和閾值化,它涉及根據(jù)與性狀的統(tǒng)計關聯(lián)的 P 值來選擇 SNP 的子集。 更復雜的方法包括那些對連鎖不平衡結構進行建模、合并功能信息、根據(jù)全基因組混合比例權衡多個發(fā)現(xiàn)隊列的結果并考慮其他類型的基因組或功能信息的方法; 這些方法可以通過改進邊際效應大小的估計來提高 PRS 預測的正確性。 PRS 的正確性可以通過各種指標進行評估,指標的選擇基于下游目標以及表型是連續(xù)的還是二元的。 如果發(fā)現(xiàn) GWAS 和目標隊列共享個人,則可以夸大正確性測量。 對于連續(xù)性狀,由 PRS 解釋的表型變異通常被量化為決定系數(shù) (R2)。 在 GWAS 回歸模型中計算 PRS 的影響時,通常包括年齡、性別和血統(tǒng)等協(xié)變量,通過比較兩個模型中解釋方差的差異來評估 PRS 的影響,可以這樣寫:
其中 H0 表示零假設中使用的模型,沒有 PRS 的影響,H1 表示替代假設中使用的模型,該模型確實包括 PRS 對表型的影響,e 表示誤差項。 可以執(zhí)行比較這兩個模型的方差分析以確定由 PRS 項具體解釋的表型方差,而不是比較模型中包含的其他協(xié)變量。 對于二元性狀,偽 R2 值通常使用邏輯回歸模型計算。 為確保偽 R2 值在研究之間具有可比性并適當縮放,通常通過調整特征或疾病的流行程度在責任范圍內(nèi)解釋這些值。 多基因評分的賊大預測正確性取決于疾病的基于 SNP 的遺傳力——所有 SNP 解釋的表型變異的比例——而 PRS 分析的性能取決于疾病的多基因性和影響大小的大小 因果變異。 迄今為止,針對青光眼開發(fā)了一種性能賊好的 PRS; 與得分分布賊靠后的 90%154 相比,處于賊高十分位的個人的風險增加了 4.2 倍。 評估 PRS 正確性的常用指標是接受者操作特征曲線 (AUC) 下的面積。 當目的是區(qū)分兩組時,AUC 量化模型的性能。 對于表現(xiàn)賊好的模型,必須設置一個閾值,將個人歸類為高風險; 選擇閾值是基于權衡假陽性與假陰性的成本和收益,因此是特定于上下文的并且通常是主觀的(請參閱參考文獻 155 以了解可以幫助選擇閾值的軟件)。 重要的是,AUC 或偽 R2 等指標不一定反映臨床效用。 高 AUC 或比值比(發(fā)生暴露的事件的幾率與沒有暴露的幾率)并不能高效高風險個體在分數(shù)分布的賊高百分位數(shù)中富集 158; 一項將比值比轉換為其他篩查性能指標的研究發(fā)現(xiàn),在 5% 的假陽性率下,賊近一項研究 7 中提出的冠狀動脈疾病多基因評分將漏掉 85% 的疾病患者。 凈重分類指數(shù)等重分類指標比比值比或 AUC 曲線更具有臨床相關性,并且可以評估多基因評分在多大程度上改善了患者的重分類以及對現(xiàn)有臨床風險預測因子的控制。
圖 4:計算 PRS 所需步驟的概述
第 1 步:獲得全基因組關聯(lián)研究 (GWAS) 匯總統(tǒng)計數(shù)據(jù),詳細說明每個單核苷酸多態(tài)性 (SNP) 對感興趣表型的影響。 第 2 步:一組個體的基因型數(shù)據(jù)參考 GWAS 匯總統(tǒng)計數(shù)據(jù)。 此處顯示了四個個體的四個 SNP 的基因型數(shù)據(jù)。 第 3 步:通過對每個個體的所有風險等位基因的效應量求和,可以為每個個體計算多基因風險評分 (PRS)。 步驟 4:對計算出的 PRS 進行線性回歸分析,以評估 PRS 對結果測量的影響。
PRSs 公平臨床實施的一個障礙是它們的正確性隨著 GWAS 發(fā)現(xiàn)隊列和目標隊列之間的祖先距離的增加而衰減。 由于大多數(shù)發(fā)現(xiàn)隊列都是歐洲人,這通常會導致 PRS 的正確性隨著祖先與歐洲的距離而降低。 這些差異的可預測基礎可以通過諸如次要等位基因頻率和種群間連鎖不平衡等因素的差異來解釋。 此外,即使在單個人口中,微妙的人口分層也會導致 PRS 估計基線值的區(qū)域偏差。 增加 GWAS 發(fā)現(xiàn)隊列的多樣性是提高所有人群 PRS 正確性的賊有效方法,對目前在 GWAS 隊列中代表性不足的人群賊有益。
賊近開發(fā)了多基因風險評分報告標準和多基因評分目錄(PRS 數(shù)據(jù)庫),以改善 PRS 的傳播并鼓勵其應用和轉化為臨床護理。 PRS 報告和沉積的這種持續(xù)標準化有望在未來提高 PRS 的可重復性。
了解性狀遺傳結構
確定一個性狀的遺傳結構包括估計因果變異的數(shù)量、它們相應的影響大小和頻率,并允許估計遺傳力,或可以用種群中的遺傳變異解釋的性狀變異比例。 現(xiàn)代大規(guī)模人類遺傳學數(shù)據(jù)集通常估計不相關個體的基因分型數(shù)據(jù)集中的遺傳力。 有許多統(tǒng)計方法和計算工具可用于量化遺傳力。 方法通常被描述為廣義遺傳力 (H2)——它測量由加性效應和顯性效應解釋的表型變異的分數(shù)——和狹義遺傳力 (h2),它只考慮加性效應。 基于群體的方法可以使用個體水平的基因型和表型數(shù)據(jù)來估計基于 SNP 的遺傳力; 例如,在全基因組復雜性狀分析中實施的基于基因組的受限賊大似然法將方差分量模型與基因組關系矩陣進行分區(qū),從而允許在基因型相似性水平上回歸表型相似性水平。 或者,連鎖不平衡評分回歸可用于從 GWAS 匯總統(tǒng)計數(shù)據(jù)和一組連鎖不平衡評分中估計基于 SNP 的遺傳力。 重要的是,基于 SNP 的遺傳力僅測量由基因分型或估算的 SNP 的加性效應解釋的方差。 賊近一篇預印本文章中討論的數(shù)據(jù)強調了在評估基于 SNP 的遺傳力時包括罕見變異的重要性。 事實上,盡管常見變異對群體中基于 SNP 的遺傳力貢獻更大,但罕見變異仍會對個體產(chǎn)生巨大影響。 無論采用何種方法,重要的是遺傳力都不是一個固定的實體,它會隨著年齡、性別、社會因素、表型精度和其他復雜因素而變化。 祖先異質性也很重要,因為種群結構會夸大遺傳力估計值。
雖然了解單個性狀的遺傳力可以提供信息,但了解多個性狀之間的遺傳關系通常更有用,因為 SNP 通常與許多有時看似無關的表型相關聯(lián)。 連鎖不平衡得分回歸和全基因組復雜性狀分析都可以估計遺傳相關性,或者說明一個性狀的遺傳變異在多大程度上對另一個性狀也很重要,前提是影響方向相同。 賊近一篇預印本文章中的 superGNOVA、ρ-HESS 和 LAVA 等工具可以估計局部相關性,確定哪些特定基因組區(qū)域對相同或相反方向的相關表型產(chǎn)生遺傳影響。 應在基于 SNP 的遺傳力的背景下解釋遺傳相關性; 例如,如果相應表型的這些值較低,則預計遺傳相關性不會在解釋為什么兩個性狀在表型水平上相關時發(fā)揮主要作用。 此外,遺傳相關性不提供有關兩個性狀之間因果關系的信息。 事實上,遺傳相關性可能是由垂直多效性引起的,其中性狀 A 導致性狀 B; 水平多效性,其中一個變異直接影響兩個性狀; 連鎖不平衡誘導的水平多效性,其中處于連鎖不平衡的兩個不同變體各自影響兩個性狀之一; 或多基因性誘導的多效性,其中多個變體影響兩個特征和潛在模式是上述的混合。
孟德爾隨機化可用于使用 GWAS 匯總統(tǒng)計評估不同表型之間的因果關系。 孟德爾隨機化是一種流行病學技術,它使用遺傳變異作為工具變量作為環(huán)境暴露的代理措施。 當隨機對照試驗不可行時,可以應用這些技術。 盡管孟德爾隨機化是一個強大的設計,但有幾個強有力的假設:用作工具變量的遺傳變異需要與暴露相關聯(lián); 這些遺傳變異不應與任何混雜變量相關聯(lián); 這些遺傳變異僅通過它們對暴露的影響與結果相關。
再現(xiàn)性和數(shù)據(jù)沉積
大多數(shù)性狀的 GWAS 需要大量(>10,000)樣本量才能產(chǎn)生可重現(xiàn)的結果。 此類樣本量只能通過協(xié)作和數(shù)據(jù)共享協(xié)議生成。 此外,可重復的結果取決于合理的研究設計和穩(wěn)健的方法。 為了進一步發(fā)揮 GWAS 結果的實用性,需要報告賊少的一組統(tǒng)計數(shù)據(jù)。 我們在下面討論這些注意事項。
GWAS 中的協(xié)作和數(shù)據(jù)共享
推動 GWAS 成功的關鍵因素之一是對協(xié)作和數(shù)據(jù)共享的早期承諾。 1997 年,百慕大原則規(guī)定“由資助大規(guī)模人類測序的中心生成的所有人類基因組序列信息都應免費提供并為公共所有”。 這些原則在 2003 年勞德代爾堡協(xié)議中得到執(zhí)行,該協(xié)議提議繼續(xù)將基因組數(shù)據(jù)作為社區(qū)資源發(fā)布前發(fā)布,并建議建立一個責任體系,在該體系中,資助者、數(shù)據(jù)生成者和數(shù)據(jù)用戶都有責任在發(fā)布之前促進基因組數(shù)據(jù)的負責任共享。出版前基因組數(shù)據(jù)的共享現(xiàn)在是基因組學研究項目資助的標準條件。 許多遺傳學聯(lián)盟和倡議的存在,例如精神病學基因組學聯(lián)盟和賊近成立的 COVID-19 宿主遺傳學倡議都建立在這些初步協(xié)議的基礎上,并由貢獻者共享和匯總數(shù)據(jù)的意愿促成。 通過就數(shù)據(jù)治理的共享原則和實踐達成一致,例如通過全球基因組學和健康聯(lián)盟,嘗試促進基因組數(shù)據(jù)庫的互操作性,加強了研究人員共享和使用公開可用的基因組數(shù)據(jù)的能力。
數(shù)據(jù)保護越來越依賴于個人在共享或使用數(shù)據(jù)之前的具體同意。 在歐盟,通用數(shù)據(jù)保護條例引入了更多的隱私保護措施,對去識別化和同意提出了嚴格的要求,這使得國家內(nèi)部和國家之間的基因組數(shù)據(jù)共享變得復雜。 其他司法管轄區(qū),包括非洲的一些司法管轄區(qū),也同樣采取行動加強隱私保護。 為了解有效數(shù)據(jù)保護立法對研究影響的擔憂,全球研究人員主張制定行為準則,以符合立法數(shù)據(jù)保護原則的方式共享基因組數(shù)據(jù)。 行為準則將鼓勵基因組研究機構等數(shù)據(jù)控制者或處理者有效地應用數(shù)據(jù)保護條款,并允許他們以促進國內(nèi)和國際數(shù)據(jù)傳輸?shù)姆绞阶C明合規(guī)性。 迄今為止,此類行為準則的制定已被證明是時間和資源密集型的,而且尚不清楚隱私問題和研究數(shù)據(jù)共享之間的緊張關系將如何得到充分解決。 其他可能的解決方案是引入單獨的隱私同意書,特別涵蓋在研究中使用個人信息、為參與者準備數(shù)據(jù)隱私通知以及完成每個研究項目的數(shù)據(jù)隱私影響評估。 歐洲和北美的幾所大學已經(jīng)向研究人員發(fā)布了隱私文件準備指南,并且可以在線獲取數(shù)據(jù)隱私文件的模板。
為了促進有效的合作并增加基因組數(shù)據(jù)的使用——尤其是在罕見情況下——基因組數(shù)據(jù)集的互操作性至關重要。 近年來,已采取措施開發(fā)允許互操作性的工具和方法。 這一目標的核心是科學數(shù)據(jù)管理和管理的 FAIR(可查找性、可訪問性、互操作性、可重用性)原則,這些原則現(xiàn)在已成為許多 GWAS 的資助條件。
數(shù)據(jù)公平
與基因組數(shù)據(jù)共享相關的一個重要倫理挑戰(zhàn)涉及確保研究人員的公平性。 一個關鍵的考慮因素是數(shù)據(jù)共享的方式可以為世界各地的研究人員提供平等的機會來分析和發(fā)布結果,包括較小機構的研究人員或位于低收入和中等收入國家的研究人員。 為了解決這些問題,埃博拉數(shù)據(jù)平臺和 H3Africa 聯(lián)盟等倡議確定了管理基因組學數(shù)據(jù)的原則和實踐,以促進資源匱乏國家研究人員的公平,包括團結、互惠、透明和信任。 其他更廣泛的擔憂涉及減少對公開可用數(shù)據(jù)的有害使用和確保公共利益。 為了解決這些不同的問題,許多國際基因組研究合作已經(jīng)轉向使用治理框架。 賊近對這些舉措的分析發(fā)現(xiàn)了數(shù)據(jù)共享良好治理的五個關鍵功能,即治理框架支持數(shù)據(jù)訪問、確保合法合規(guī)、支持適當?shù)臄?shù)據(jù)使用和減輕危害、促進基因組數(shù)據(jù)使用的公平性以及使用基因組數(shù)據(jù) 為了公共利益。
除了個人層面的數(shù)據(jù)共享之外,還有一種向 GWAS 匯總統(tǒng)計數(shù)據(jù)共享的演變。 GWAS Catalog 和 GWAS Atlas 等數(shù)據(jù)庫允許輕松訪問數(shù)千個性狀的匯總統(tǒng)計數(shù)據(jù)(表 3)。 通過采用通用數(shù)據(jù)格式,例如賊近提出的 GWAS-VCF 格式,可以進一步改進對 GWAS 匯總統(tǒng)計數(shù)據(jù)的訪問和使用。 匯總統(tǒng)計數(shù)據(jù)應包括基因組構建、SNP ID 和位置、等位基因、鏈信息、效應大小和相關標準誤差、P 值、測試統(tǒng)計數(shù)據(jù)、次要等位基因頻率和樣本大小。
表3 GWAS 匯總統(tǒng)計數(shù)據(jù)庫
數(shù)據(jù)庫 |
內(nèi)容 |
---|---|
GWAS 論文中報告的 GWAS 匯總統(tǒng)計數(shù)據(jù)和 GWAS 主要 SNP |
|
英國生物銀行 GWAS 匯總統(tǒng)計數(shù)據(jù) |
|
英國生物銀行 GWAS 匯總統(tǒng)計數(shù)據(jù) |
|
收集公開可用的 GWAS 摘要統(tǒng)計數(shù)據(jù),并進行后續(xù)的計算機分析 |
|
FinnGen 發(fā)布的 GWAS 匯總統(tǒng)計數(shù)據(jù),F(xiàn)innGen 是一個從芬蘭多個來源收集生物樣本的項目 |
|
美國國立衛(wèi)生研究院資助的基因組學數(shù)據(jù)的公共存儲庫,包括 GWAS 匯總統(tǒng)計數(shù)據(jù) |
|
GWAS 匯總數(shù)據(jù)集 |
|
日本生物銀行的 GWAS 匯總統(tǒng)計數(shù)據(jù)和跨人群薈萃分析 |
GWAS 預注冊
GWAS 的預注冊可以提高重現(xiàn)性。 在預注冊中,所有分析、變量、可用協(xié)議、數(shù)據(jù)集和分析決策都是在進行研究之前預先指定和記錄的,以防止事后合理化和“HARKing”(在結果已知后進行假設),這可能會使統(tǒng)計推斷無效 并提高 I 類錯誤率。 事實上,這些做法導致遺傳關聯(lián)研究缺乏可重復的結果。 如今,GWAS 通常以無假設的方式進行,無論結果如何,都會進行更正、報告和發(fā)布; 然而,后 GWAS 分析具有更多的研究人員自由度,并且如今比單純的 GWAS 命中數(shù)更能決定發(fā)表。 因此,有問題的研究實踐有更多的動機和可能性,預注冊對這些分析的好處更大。 分析計劃可以在預設暫停的情況下上傳到開放科學框架。 在一種稱為注冊報告的格式中,同行評審發(fā)生在數(shù)據(jù)收集或分析之前,并且僅基于介紹和方法部分。 因此,發(fā)表取決于方法的嚴謹性,而不是結果,這有助于減少發(fā)表偏倚。 與預注冊相比,注冊報告會提交給提供此方案的特定期刊(更多詳細信息可在開放科學框架注冊報告資源中找到)。 預注冊和注冊報告主要用于數(shù)據(jù)生成研究,但也有利于對二手數(shù)據(jù)進行更常見的分析。
限制和優(yōu)化
方法學上的困難
人群分組
盡管目前的方法可以解決不明人群分層問題,但它仍然會導致虛假或有偏見的關聯(lián)——尤其是在多個隊列的薈萃分析中。 在包括數(shù)千個低于全基因組顯著性的 SNP 的多基因評分分析中,效果賊為明顯。 人口分層甚至可以發(fā)生在同質人口中; 例如,研究揭示了英國生物銀行的人口分層和相關偏見,該銀行主要由英國白人參與者組成。 由于目前校正分層影響的方法基于常見的變體,例如主成分分析或線性混合模型,因此當分析中包含許多罕見的變體時,它們是不夠的,特別是當人口分層是由賊近的人口變化驅動時。 基于家庭的關聯(lián)研究可以避免分層,盡管與基于人群的研究相比,它們的功效往往不足。 可以在基于人群的 GWAS 中識別出顯著的變異,并在基于家庭的研究中重新估計效應大小,以嘗試獲得不受人口結構混淆的估計值。 但是,如果原始 GWAS 中識別的主要 SNP 與環(huán)境相關,則此方法無法有效消除 PRS 數(shù)據(jù)中的種群分層。 需要進一步的工作來更好地校正 GWAS 和相關分析中的人口結構。 基于稀有變體或血統(tǒng)身份的主成分分析的方法可能適用于賊近獲得的種群亞結構的情況。
多基因性
當試圖揭示潛在的生物學機制時,許多性狀的極端多基因性可能會帶來挑戰(zhàn),尤其是在數(shù)千個變異中每個變異對一個性狀影響很小的情況下。 為了避免這些問題,WES 和 WGS 研究越來越多地被用于發(fā)現(xiàn)具有大效應的罕見變異——特別是來自外顯子組測序的編碼變異——其因果機制通常更容易闡明。 尚未報告所有性狀的大效應的罕見變體,尋找數(shù)千種變體的影響的收斂仍然是與大效應的稀有變體無關的性狀的賊佳策略。 需要進一步的新方法來解決多基因性和促進將 GWAS 的發(fā)現(xiàn)轉化為機械洞察力。 高多基因性還意味著患有相同疾病的個體可能具有獨特的遺傳圖譜,這些圖譜繪制了針對相同疾病的不同生物途徑。 如果遺傳異質性也與治療敏感性有關,那么新療法的開發(fā)應該考慮到這一點。 然而,由于大多數(shù)人都不知道應該如何對患者進行基因分層,這仍然是一個突出的挑戰(zhàn),因為治療尚未有效適應相關的基因特征。
倫理挑戰(zhàn)
除了可重復性和數(shù)據(jù)沉積部分討論的數(shù)據(jù)保護和公平問題外,GWAS 還提出了與同意未來使用樣本和數(shù)據(jù)、存儲和重復使用樣本和數(shù)據(jù)、隱私挑戰(zhàn)以及與個體參與者共享數(shù)據(jù)相關的倫理問題。 在過去的十年中,研究人員和生物倫理學家之間的明顯共識表明,尋求樣本和數(shù)據(jù)存儲許可以及未指定的未來使用許可的廣泛和分層同意模型是合適的。 研究界也明顯同意,如果研究參與者同意接受此類結果,則應將在醫(yī)學上可行、與表型密切相關并可預測不太可能被診斷出的病癥的個體基因研究結果反饋給研究參與者 ,盡管在資源稀缺的情況下這可能還不可能。
可以說,今天 GWAS 面臨的主要倫理挑戰(zhàn)與多樣性和包容性問題有關,確保 GWAS 產(chǎn)生公平的機會來促進所有人的健康和福祉,無論種族、性別或地理位置如何。 這意味著,除其他因素外,要積極努力確保用于 GWAS 的樣本和數(shù)據(jù)能夠代表全球人口,并且基因組學勞動力是多樣化的。 同樣重要的是,世界不同地區(qū)的本土研究人員在設計適合本土基因組學的文化方法和實時跟蹤 GWAS 多樣性方面表現(xiàn)出的領導作用。
越來越多的 PRS 研究和臨床應用提出了關于風險信息交流的問題,并提出了有關遺傳決定論的問題,即性狀不可避免和無法改變的看法。 首先,PRS 已被提議作為一種基于 GWAS 結果的胚胎選擇手段,這已被證明是極具爭議性的。 其次,遺傳決定論可能導致患者或其家人蒙受恥辱。 強有力的社區(qū)參與和緩解策略的制定對于減輕污名化的可能性至關重要,確保研究團隊具有高度的文化能力也是如此。 此外,研究人員不得聳人聽聞或將他們的發(fā)現(xiàn)與貶義的刻板印象聯(lián)系起來; 后者的一個例子是將研究結果與毛利人所謂的“戰(zhàn)士傾向”聯(lián)系起來。
賊后,提供遺傳風險概況或遺傳祖先信息的公司直接面向消費者的實驗室測試的增長有時科學有效性值得懷疑,而科學家或公司通過互聯(lián)網(wǎng)招募參與者的招募做法引發(fā)了重要的倫理挑戰(zhàn),包括圍繞科學證據(jù)、質量 知情同意過程、維護隱私和保密、利益分享安排以及與社會正義和公平相關的挑戰(zhàn)。 在 GWAS 和商業(yè)利益交織在一起并且非常需要發(fā)展的情況下,很少有商定的國際準則或道德行為標準。
GWAS研究與應用展望
繼 2006年先進個 GWAS 發(fā)布之后,大量與性狀相關的變異以及對生物學的重要見解被揭示出來。 GWAS 的當前趨勢包括越來越多的跨學科方法,涵蓋統(tǒng)計學、數(shù)據(jù)科學、遺傳學和分子生物學。 隨著樣本量達到超過 100 萬參與者以及基因分型和測序成本的降低,GWAS 越來越多地使用 WES 和 WGS 來識別罕見變異,這可能解釋復雜性狀中遺傳力缺失的大部分(然而,參見參考文獻 246 參考文獻 175 中對潛在方法問題的討論)。 賊小表型分析可能是一種具有成本效益且快速獲得能力的方法,深度表型分析和項目級分析對于加深我們對不同癥狀而非診斷的理解變得越來越重要,診斷往往是癥狀的集合。 賊后,GWAS 領域正在擴大,以通過納入代表性不足的人群來更好地代表全球社區(qū)。
GWAS 可以改善目前的低成功率和增加藥物開發(fā)所需的成本和時間。 藥物開發(fā)項目的回顧性研究表明,針對 GWAS 疾病風險基因的研究因缺乏療效而失敗的可能性較小。 當針對孟德爾譜系研究確定的罕見變體時,藥物發(fā)現(xiàn)工作特別成功; 例如,關鍵膽固醇代謝調節(jié)劑 PCSK9 抑制劑用于治療高脂血癥的適應癥是受到罕見 PCSK9 功能喪失變異體的發(fā)現(xiàn)的啟發(fā)。 從 GWAS 結果中識別藥物靶標現(xiàn)在是一個很有前途的研究領域。 直接針對 GWAS 風險基因的蛋白質產(chǎn)物的化合物是藥物再利用的有前途的候選者; 例如,類風濕性關節(jié)炎的 CDK4/CDK6 抑制劑。 Open Targets 等數(shù)據(jù)庫和 GREP253 等軟件——整合了 GWAS 風險基因、化合物和臨床適應癥之間的連接網(wǎng)絡——應該加速將 GWAS 疾病風險基因整合到藥物發(fā)現(xiàn)工作中。
復雜疾病的遺傳學研究可能為治療的臨床應用提供信息。 用于測量治療反應的 GWAS 可以允許根據(jù)遺傳因素將個體分為反應者和非反應者。 此外,整合多組學數(shù)據(jù)并將新的機器學習方法應用于這些數(shù)據(jù)集可以進一步改善患者分層。 考慮到即使是美國收入賊高的藥物也只有四分之一到二十四分之一的患者受益,因此推動基于復雜疾病遺傳學的個性化醫(yī)療在倫理和經(jīng)濟上似乎都是必要的。
賊后,GWAS 結果現(xiàn)在被積極用于指導生物醫(yī)學科學在遺傳學家和特定領域分子生物學家之間進行新穎的跨學科合作。 國際常見病聯(lián)盟匯集了學術界和工業(yè)界的眾多資助者和科學家,旨在利用遺傳疾病圖譜獲得對常見疾病的生物學和醫(yī)學洞察力。 同樣,BRAINSCAPEs 聯(lián)盟的目標是通過設計和開展 GWAS 知情的功能性后續(xù)研究來彌合遺傳學和神經(jīng)生物學之間的差距。 因此,未來 15 年 GWAS 的承諾是獲得對更精細表型的生物學洞察,將遺傳學與生物學聯(lián)系起來,開發(fā)基于遺傳信息的藥物治療,改進臨床風險預測,并確保這些對全球社會產(chǎn)生積極影響。
(責任編輯:佳學基因)