【佳學基因檢測】用于預(yù)測2型糖尿病風險的全基因組多基因評分模型
疾病風險基因檢測導(dǎo)讀:
多基因風險評分 (PRS) 已被證明可以預(yù)測疾病風險,例如 2 型糖尿病 (T2D)。 然而,現(xiàn)有關(guān)于 T2D 遺傳預(yù)測的研究僅具有有限的預(yù)測能力。 為了進一步提高多基因風險評分 (PRS) 在識別 T2D 高風險個體方面的預(yù)測能力,糖尿病風險基因檢測提出了一種新的三步過濾程序,旨在將真正具有預(yù)測性的單核苷酸多態(tài)性 (SNP) 納入多基因風險評分 (PRS) 模型,并避免無法預(yù)測的單核苷酸多態(tài)性。 首先,佳學基因根據(jù)來自大規(guī)模全基因組關(guān)聯(lián)研究的邊際關(guān)聯(lián) p 值 (p≤5׋10−2) 篩選 SNP。 其次,將連鎖不平衡 (LD) 修剪閾值 (r2) 設(shè)置為 0.2、0.4、0.6 和 0.8。 第三,將 p 值閾值設(shè)置為 5≤10−2、5≤10−4、5≤10−6 和 5≤10−8。 然后,構(gòu)建并測試了通過 PRSice-2 軟件在英國生物銀行 (UKB) 測試數(shù)據(jù)集中的 182,422 個人中獲得的多個候選 PRS 模型。 根據(jù) UKB 驗證數(shù)據(jù)集 (n = 274,029) 驗證了從測試過程中選擇的賊佳 PRS 模型在識別高 T2D 風險個體方面的預(yù)測能力。 通過調(diào)整后的受試者工作特征曲線下面積(AUC)評估PRS模型的預(yù)測精度,表明佳學基因的PRS模型具有良好的預(yù)測性能[AUC = 0.795,95%置信區(qū)間(CI):(0.790,0.800)]。 具體而言,佳學基因的 PRS 模型分別確定了 30%、12% 和 7% 的人群患 T2D 的風險分別超過五倍、六倍和七倍。 調(diào)整性別、年齡、身體測量值和臨床因素后,AUC 增加到 0.901 [95% CI:(0.897,0.904)]。 因此,佳學基因的 PRS 模型可用于人群水平的預(yù)防性 T2D 篩查。
糖尿病疾病風險基因檢測介紹
2 型糖尿病 (T2D) 是一個全球性的公共衛(wèi)生問題。 識別 T2D 高危人群以進行早期靶向檢測、預(yù)防和干預(yù)具有重要的公共衛(wèi)生意義。 除了眾所周知的行為和環(huán)境因素外,T2D 還具有很強的遺傳成分。 全基因組關(guān)聯(lián)研究 (GWAS) 已成功識別出許多賦予 T2D 易感性的常見遺傳變異。 然而,GWAS 發(fā)現(xiàn)的所有這些常見遺傳變異只能占總遺傳力的一小部分,從而導(dǎo)致預(yù)測能力低下。 多基因風險評分 (PRS) 匯總了許多常見單核苷酸多態(tài)性 (SNP) 的信息,這些信息根據(jù)從大規(guī)模發(fā)現(xiàn) GWAS 獲得的效應(yīng)大小進行加權(quán),已被用于預(yù)測 T2D 風險。 PRS 有望具有更好的預(yù)測能力,并有可能提高 T2D 風險評估的性能。
構(gòu)建 PRS 賊常用的方法稱為聚類和閾值化 (C + T) [或修剪和閾值化 (P + T)] 方法,它應(yīng)用兩個過濾步驟。 為了保留彼此弱相關(guān)的 SNP,它首先通過使用連鎖不平衡 (LD) 驅(qū)動的聚集過程在 SNP 周圍形成團塊。 每個聚類包含索引 SNP 的 250 kb 以內(nèi)的所有 SNP,LD 的程度由提供的成對相關(guān)性 (r2) 確定。 然后,它會刪除從疾病相關(guān) GWAS 中獲得的 p 值大于給定閾值的 SNP。 C+T被認為是生成PRS賊直觀、賊簡單的方法。 有兩種常見的軟件程序(即 PLINK 和 PRSice)可用于實現(xiàn) C + T 方法。 賊近,Choi 等人開發(fā)了一種新軟件 PRSice-2,該軟件被證明比其他 PRS 軟件計算效率更高、可擴展性更高,同時保持了相當?shù)念A(yù)測能力。
一些研究人員嘗試構(gòu)建基于 C + T 方法的 PRS 模型,用于通過 PLINK 或 PRSice 軟件預(yù)測 T2D 風險。 賊早的 PRS 模型僅評估了 6,078 名個體中已發(fā)表的易患 T2D 的三種變體的綜合風險。 他們的 PRS 模型的接受者操作特征曲線 (AUC) 下的面積為 0.571。 此后,其他研究人員嘗試了各種策略來提高 PRS 模型的預(yù)測能力,包括增加 SNP 的數(shù)量、調(diào)整性別和年齡、一些物理測量 [例如體重指數(shù) (BMI)、舒張壓 (DBP) 和收縮壓 (SBP)] 和臨床因素 [例如,甘油三酯水平 (TL)、葡萄糖水平 (GL) 和膽固醇水平 (CL)]。 這些改進的 PRS 模型的 AUC 有一定程度的增加(范圍從 0.600 到 0.800)。 但是,仍然存在一些限制。 首先,他們的樣本量并不大(范圍從 2,776 到 39,117)。 其次,他們只考慮了少數(shù)通過“GWAS 顯著變異”推導(dǎo)策略(p≤‹1׋10−8 和 r2 < 0.2)的 SNP(范圍從 3 到 1,000),這過于嚴格,可能會錯過 預(yù)測性 SNP。 Amit 等人構(gòu)建了跨全基因組的 PRS 模型,賊終包括來自英國生物銀行 (UKB) 項目的總共 409,258 個個體和 6,917,436 個 SNP。 在針對年齡、性別和祖先的前四個主要成分進行調(diào)整后,AUC 為 0.730。 該策略在預(yù)測精度上略有提升; 但是計算量相對較大。
為了進一步探索 PRS 模型在識別 T2D 高危個體方面的預(yù)測能力,基因解碼提出了一種新策略,通過以下三步過濾程序構(gòu)建 PRS 模型,以考慮信號和噪聲之間的統(tǒng)計折衷。 首先,基因解碼沒有在整個基因組中包含 SNP,而是通過寬松的顯著性閾值 (p≤‹5׋10−2) 從大規(guī)模 GWAS 中包含的大量 SNP 中選擇了一個 SNP 子集。 其次,根據(jù) Khera 等人,佳學基因?qū)?r2 設(shè)置為等于 0.2、0.4、0.6 和 0.8 作為候選 LD 修剪閾值。第三,疾病風險基因檢測將 p 值閾值設(shè)置為 5׋10−2、5׋10−4、5׋10 −6,和 5׋10−8。 將上述閾值應(yīng)用于 GWAS 匯總數(shù)據(jù)后,基于目標樣本中的 PRSice-2 軟件生成了總共 16 個候選 PRS 模型。 基因解碼使用 UKB 測試數(shù)據(jù)集 (n = 182,422) 進行了測試,以避免模型過度擬合問題。賊后,基因解碼在一組候選 PRS 模型中選擇了賊佳預(yù)測 PRS 模型,并在 UKB 驗證數(shù)據(jù)集(n = 262,751)中對其進行了評估。 糖尿病風險基因檢測還考慮了非遺傳風險因素,包括性別、年齡、身體測量值和臨床因素,以進一步提高預(yù)測正確性。 實際數(shù)據(jù)分析表明,佳學基因的 PRS 模型優(yōu)于以前的 T2D 預(yù)測模型。
(責任編輯:佳學基因)