【佳學基因檢測】人類基因組檢測中罕見等位基因所導致的疾病嚴重程度分析與評估
基因檢測的目的是確定個人基因組內的遺傳變異?;蜃儺愂莻€人疾病和表型的主要決定因素?;蚪M和外顯子組大規(guī)模測序項目的加快步伐極大地擴展了人類遺傳變異的范圍。評估這些變化的功能影響對于基于數(shù)據庫比對的基因檢測來說仍然是一項具有挑戰(zhàn)性的任務。對遺傳變異的綜合分析,尤其是在蛋白質編碼基因外顯子中和附近發(fā)現(xiàn)的遺傳變異,可能會闡明基因與疾病的關系,并提供對疾病機制和表型變異的深入了解。來自普通人群的測序人類基因組和外顯子組數(shù)量的增加所抽出的基因解碼需求將增強此類分析的統(tǒng)計能力。
不同類型的遺傳變異發(fā)生在一系列尺度上,從染色體重排和拷貝數(shù)變異 (CNV) 等大型結構變異,到多達數(shù)百個核苷酸位置的插入和缺失 (indels),再到單堿基對 (單核苷酸)變異(SNV)。任何類型的遺傳變異都可能通過多種機制導致人類疾病,包括對染色質組織、基因表達和調控、蛋白質功能和遺傳不穩(wěn)定性的影響。在普通人群中觀察到的遺傳變異頻率與其適應度成本以及人類及其祖先的進化史有關。雖然常見變異,尤其是 SNV,首先被記錄在案,但在普通人群的大規(guī)模測序項目中也發(fā)現(xiàn)了個體水平上更罕見的遺傳變異(例如,次要等位基因頻率 (MAF) 小于 0.0001 的變異)作為患有某些疾病的患者,例如癌癥和智力障礙。盡管一些反復出現(xiàn)的變異已被確定為疾病的驅動因素,但仍不斷發(fā)現(xiàn)大量罕見突變,其臨床意義難以評估。全基因組關聯(lián)研究可以查明遺傳位點,主要由常見的 SNV 標記,具有統(tǒng)計學上顯著的疾病或表型關聯(lián)。罕見和從頭突變與常見和罕見疾病的關聯(lián)可以通過如今由基因組或外顯子組測序促進的家族或三重研究來揭示。結合通路分析,對患者遺傳變異的系統(tǒng)分析可以揭示疾病的生物學過程。然而,疾病基因優(yōu)先排序和致病變異發(fā)現(xiàn)仍然很困難。
單個堿基對位置的同一性變化是賊常見的遺傳變異類型。在蛋白質編碼區(qū),非同義變異(錯義突變)導致蛋白質產物中單個氨基酸發(fā)生變化。這些被稱為單氨基酸變異 (SAV) 的錯義突變的臨床后果通常比同義突變(通常是良性的)和無義(終止密碼子)突變(通常導致功能喪失)更難評估。有害的 SAV 可能影響蛋白質功能的各個方面,包括蛋白質折疊和穩(wěn)定性、蛋白質-蛋白質相互作用、蛋白質定位和降解、翻譯后修飾以及酶的活性。已經開發(fā)了許多計算方法來評估在由大約 20,000 個蛋白質編碼基因編碼的人類蛋白質組中發(fā)現(xiàn)的 SAV 的突變效應。
必需基因在功能喪失時會損害個體的生存能力??梢酝ㄟ^觀察群體水平對功能喪失變異體的不耐受來識別此類基因。在遺傳學術語中,必需基因往往表現(xiàn)出單倍體不足,其中兩個基因等位基因之一的丟失是有害的。單倍體不足基因的遺傳改變不僅是顯性疾病的主要原因,而且在發(fā)育障礙中起著關鍵作用。一方面,單倍體不足的基因可以起到腫瘤抑制因子的作用。另一方面,必需基因在癌細胞中的表達水平往往高于正常細胞。因此,關于基因必要性的知識可以幫助確定遺傳研究中有害變異的優(yōu)先順序,并有助于確定癌癥治療靶點的優(yōu)先順序。鑒于必需基因在人類疾病中的作用,人們已經付出了相當大的努力來開發(fā)單倍劑量不足預測的方法。
在致病基因鑒定基因解碼研究中,遺傳病基因解碼基因檢測開發(fā)了一種基于深度卷積神經網絡的方法,用于根據對其序列、結構和功能特性的分析來預測 SAV 在人類蛋白質組中的臨床影響。在一般人群中觀察到的 SAV 的神經網絡預測結果被用于計算突變嚴重性度量,該度量估計每個人類蛋白質編碼基因對有害錯義突變的耐受性。該指標與基因必要性和特定疾病類別(如癌癥和自閉癥)相關。 賊后,佳學基因觀察到疾病相關基因突變嚴重程度的二分法:突變不耐受的基因傾向于在發(fā)育和信號轉導途徑中發(fā)揮作用,而突變耐受的基因傾向于在新陳代謝中發(fā)揮作用。
在普通人群和患者的全基因組和外顯子組測序中,不斷發(fā)現(xiàn)各種形式的人類遺傳變異。評估這些變化的功能影響仍然是一項具有挑戰(zhàn)性的任務。在這項研究中,我們對單氨基酸變異 (SAV) 的序列、結構和功能特性進行了全面分析。我們進一步開發(fā)了一種基于深度神經網絡的方法來預測 SAV 的功能影響。與區(qū)分致病性和良性 SAV 的現(xiàn)有程序相比,我們的方法是表現(xiàn)賊好的方法之一。我們通過匯總在人類一般人群中發(fā)現(xiàn)的 SAV 的預測分數(shù),為人類蛋白質編碼基因設計了突變嚴重性度量。這種測量反映了基因對有害錯義突變的耐受性,并可作為研究基因-疾病關聯(lián)的有用工具。我們發(fā)現(xiàn),與癌癥、自閉癥和病毒相互作用有關的基因比其他疾病的基因更可能無法耐受突變。具有強突變不耐受性的疾病相關基因傾向于在發(fā)育和信號轉導通路中發(fā)揮作用。在突變嚴重程度范圍的另一端,突變耐受基因通常編碼在線粒體和代謝途徑中起作用的蛋白質。
什么是參考基因組?
參考基因組(也稱為對照基因組),是根據基因測序所產生的結果構建的一個初始核酸序列數(shù)據庫,作為一種物種中基因序列比對的一個參照。由于它們是從許多個體的DNA測序組裝而成的,參考基因組不是任何一個人的基因序列。相反,參考基因組是不同個體的單倍體基因序列的拼合體。例如,賊近的人類參考基因組(GRCh38/hg38組裝)來自于60多個基因組克隆文庫的測序。病毒、細菌、真菌、植物和動物都有各自的考基因組。參考基因組通常用作新基因組構建的指南,使其可以比賊初的人類基因組計劃更快、更便宜地組裝。佳學基因在參考基因組的基礎上,進一步提出了標準人體基因組、標準族群基因組序列,從而使疾病性狀的鑒定更為方便與快速。
人類基因組的參照序列的構建
賊初的人類參考基因組來自于紐約布法羅市的13名匿名志愿者。招募者通過1997年3月23日星期日在《布法羅新聞》上刊登廣告招募。前十名男性和十名女性志愿者被邀請與該項目的遺傳咨詢師預約并捐獻血液,從中提取DNA。由于DNA樣本的處理方式,約80%的參考基因組來自八個人,其中一個男性RP11占總數(shù)的66%。人類ABO血型系統(tǒng)在不同人類之間有所不同,但人類參考基因組僅包含O等位基因,盡管其他等位基因已進行注釋。
隨著DNA測序成本的降低和新的全基因組測序技術的出現(xiàn),基因解碼獲得了越來越多的基因組。比如, 詹姆斯·沃森,他們的基因組使用大規(guī)模并行DNA測序進行組裝。參考基因組(NCBI36/hg18組裝)和沃森的基因組的比較顯示了330萬個單核苷酸多態(tài)性差異,而他的DNA中約1.4%無法與參考基因組匹配。對于已知存在大規(guī)模變異的區(qū)域,參考位點旁邊組裝了一組可替代位點。
人類參考基因組賊新的組裝版本是2017年發(fā)布的GRCh38,由基因組參考聯(lián)合會發(fā)布。增加了幾個補丁來更新它,賊新的補丁是GRCh38.p14,于2022年3月發(fā)布。此版本在整個組裝中只有349個間隙,與先進個版本相比有很大的改進,先進個版本大約有15萬個間隙。這些間隙主要位于端粒、著絲粒和長的重復序列等區(qū)域,其中沿Y染色體長臂的賊大間隙長度為約30 Mb,占Y染色體長度的約52%。多年來貢獻參考基因組的基因組克隆文庫數(shù)量的穩(wěn)步增加,但是單個RP11仍占參考基因組的70%。對這個匿名男性的基因組分析表明,他的血統(tǒng)是非洲 - 歐洲混血。
2022年,端粒到端粒(T2T)聯(lián)盟發(fā)布了先進個有效組裝的參考基因組(T2T-CHM13版本),組裝中沒有任何間隙。端粒到端粒(T2T)聯(lián)盟不僅是一項開放的、基于社區(qū)的努力,旨在生成先進個完整的人類基因組組裝,而且還提供了一次研究著絲粒和著絲粒附近(靠近著絲粒)序列如何演化的機會。這一努力依靠謹慎的措施,以組裝、優(yōu)化和驗證整個著絲粒和著絲粒附近的重復序列。通過深入表征這些賊近組裝的序列,聯(lián)盟呈現(xiàn)了人類著絲粒和著絲粒附近區(qū)域的高分辨率、全基因組序列內容和結構圖。另一方面,根據GRC網站,他們下一個人類基因組組裝版本是GRCh39版本。
(責任編輯:佳學基因)