遺傳病、罕見病基因檢測導讀:隨著基因解碼逐漸取代基因檢測技術(shù),基因信息在人類生活中的應用越來越廣泛。基因序列的變化不僅可以用來發(fā)現(xiàn)遺傳病的基因原因,也可以用來描述一切人類參與的生命活動。佳學基因在建立《人類基因序列變化與人體疾病表征》數(shù)據(jù)庫的過程中,發(fā)現(xiàn)推廣、規(guī)范人類基因序列變異描述的重要性。結(jié)合人類基因組變異協(xié)會(HGVS:Human Genome Variation Society)的規(guī)則,提出系統(tǒng)性的基因變異序列描述規(guī)則,供大家參考使用。建議和評論請發(fā)EMAIL至jiaxue@jiyinjiema.com。
發(fā)布和推廣人類基因序列變異的命名規(guī)則可以規(guī)范人們對于人類基因序列描述的方法?;蚪獯a發(fā)現(xiàn),人類基因序列的變異是人與人之間的體型、身高、胖瘦、性格、智商、情商、疾病、天賦產(chǎn)生差異的基礎(chǔ)。盡管佳學基因利用已經(jīng)產(chǎn)生的基因解碼結(jié)果推出了天賦基因解碼、疾病風險基因解碼、用藥指導基因解碼及治病基因鑒定基因解碼,但是人類基因變異序列的解碼需要學術(shù)界、醫(yī)療界、藥物研究領(lǐng)域、人工智能專家的廣泛參與,并經(jīng)個性化教育、個性化健康管理、正確營養(yǎng)、個性化護膚、正確醫(yī)學等第四次產(chǎn)業(yè)革命的多種形式深入到人類生活的每一個角落,從而實現(xiàn)基因信息變革人類生活的歷史使命。為推進這一歷史性事件的發(fā)生,佳學基因發(fā)布、分享人類基因序列變異描述標準,降低多行業(yè)參與基因解碼技術(shù)研發(fā)的門檻,促進基因解碼的應用開發(fā),并讓更多的人更快的收益于基因解碼所帶來的生活質(zhì)量的改變。
人體基因序列變異描述標準化對基因變異進行統(tǒng)一和規(guī)范化命名可以減少基因描述中所發(fā)生的混淆現(xiàn)象,以更正確地描述基因所發(fā)生的特定突變,同時該命名方式又應當容易被基因變異研究者所接受。佳學基因發(fā)布、分享人體基因序列變異描述標準,使基因解碼的研究結(jié)果更容易傳播、理解。讓基因檢測報告更標準。
通用命名規(guī)則
基因表達是指儲存于DNA順序中的遺傳信息經(jīng)過轉(zhuǎn)錄和翻譯,轉(zhuǎn)變成具有生物活性的蛋白質(zhì)分子。生物體內(nèi)的各種功能蛋白質(zhì)和酶都是由相應的結(jié)構(gòu)基因編碼的。
外顯子和內(nèi)含子是真核生物結(jié)構(gòu)基因中的編碼序列,前者在mRNA加工過程中會被保存下來,并可在蛋白質(zhì)生物合成過程中表達為特定的蛋白質(zhì),后者在mRNA加工過程中被剪切掉,不能表達蛋白質(zhì);剪接位點是內(nèi)含子和外顯子連接邊界的序列和接頭位點;密碼子是RNA分子中每相鄰的3個一組的核苷酸,在蛋白質(zhì)合成時可代表一種特定氨基酸;轉(zhuǎn)錄起始位點是RNA轉(zhuǎn)錄開始的位點;翻譯起始位點是翻譯成蛋白質(zhì)開始的位點;編碼區(qū)是指能夠轉(zhuǎn)錄為RNA的部分,包括外顯子和內(nèi)含子,只是內(nèi)含子不能表達為蛋白質(zhì),在RNA加工過程中被剪切掉了;非翻譯區(qū)是成熟mRNA分子5′或3′端不被翻譯的部分。
描述基因變異時,研究者應遵循3條規(guī)則:(1)首先描述DNA水平的變異,然后再描述RNA水平和蛋白質(zhì)水平的變異;(2)應描述清楚所發(fā)生的變異是經(jīng)過檢測確切發(fā)生的變異還是理論上推導出的變異;(3)應當指出所參考的原始基因序列。
1.序列變異描述與參考序列有關(guān),在參考序列中,應在出版物/數(shù)據(jù)庫提交中提及來自主序列數(shù)據(jù)庫(Genbank,EMBL,DDJB,SWISS-PROT)的登錄號(如M18533)
2.為了避免在序列改變的描述中混淆,在描述之前用表示所用參考序列類型的字母:
“g.”表示基因組序列(例如,g.76A> T)
“c.”對于cDNA序列(例如,c.76A> T)
“m.”線粒體序列(例如,m.76A> T)
“r.”的RNA序列(例如,r.76a> u)
“p.”對于蛋白質(zhì)序列(例如,p.K76A)
3.為了區(qū)分不同的水平(DNA,RNA或蛋白質(zhì)),描述是獨特的:
在DNA水平,用大寫字母,從受影響的更先進個核苷酸數(shù)字開始(例如,c.76A> T)
在RNA水平,用小寫字母,受影響的更先進個核苷酸數(shù)字開始(如r.76a> u)
在蛋白質(zhì)水平,用大寫字母,從受到影響的更先進個氨基酸字母開始(單字母代碼)(例如,p.T26P)
4.一系列受影響的殘基用“_” - 字符(下劃線)表示,將受影響的更先進個和賊后一個殘基分開(例如,76–78delACT)
5.對于單核苷酸(或氨基酸)延伸或串聯(lián)重復的缺失或重復,賊多3'拷貝被任意指定為已更改(例如,ACTTTGTGCC-ACTTTGCC,被描述為7_8delTG
6.一個等位基因中的兩個序列變異列在括號之間,用“;”字符分隔(例如,[76A> C; 83G> C])
7.不同等位基因(例如隱性疾?。┑男蛄凶兓性诶ㄌ栔g,用“+”字符分隔(例如,[76A> C] + [87delG]
一、DNA水平(ATG起始密碼子中A為+1,5’區(qū)為-1,沒有0堿基)
非編碼區(qū):ATG翻譯起始密碼子的核苷酸5'區(qū)為-1,翻譯終止密碼子的核苷酸3'區(qū)為* 1
內(nèi)含子核苷酸:
內(nèi)含子的起始:前一個外顯子的賊后一個核苷酸的數(shù)量,一個加號,以及內(nèi)含子的位置,例如77 + 1G,77 + 2T(當外顯子數(shù)已知時,符號可以也可稱為IVS1 + 1G,IVS1 + 2T)
內(nèi)含子的末端:下一個外顯子的更先進個核苷酸的數(shù)目,一個減號,以及內(nèi)含子上游的位置,例如78-2A,78-1G(當外顯子數(shù)已知時,符號可以也可稱為IVS1-2A,IVS1-2G)
核苷酸變化的描述
1.取代用“>”表示
76A> C表示在核苷酸76處A變?yōu)镃。
88 + 1G> T(或者IVS2 + 1G> T)表示在內(nèi)含子2的核苷酸+1處的G取代T。相對于cDNA位于核苷酸88和89之間。
89-2A> C(或IVS2-2A> C)表示內(nèi)含子2的核苷酸-2處的A至C取代,相對于cDNA定位在核苷酸88和89之間。
2.缺失用“del”表示
76_78del(或76_78delACT)表示從核苷酸76到78的ACT缺失。
82_83del(或者82_83delTG)表示ACTTTGTGCC(A是核苷酸76)到ACTTTGCC的序列中的TG缺失。
IVS2_IVS5del(或88+?-923-? 或EX3_5del)表示外顯子缺失從內(nèi)含子2中的未知位置開始(在cDNA核苷酸88之后)并且在內(nèi)含子5中的未知位置結(jié)束(在cDNA核苷酸923之前)。
3.重復用“Dup”表示
77-79dup(或77_79dupCTG)表示核苷酸77至79是重復的。
單核苷酸區(qū)段(或短串聯(lián)重復序列)中的重復插入被優(yōu)先描述為重復,例如,ACTTTGTGCC至ACTTTGTGTGCC的TG串聯(lián)重復序列中的TG插入(A是nt 76)被描述為82_83dupTG(現(xiàn)為83_84insTG)
4.插入由“ins”表示
注意:作為分隔符,有時使用“^” - 字符,但不建議這樣做(例如,83 ^ 84insTG)
76_77insT表示在核苷酸76和77之間插入T 。
83_84dupTG表示ACTTTGTGCC(A是核苷酸76)的TG-串聯(lián)重復序列中的TG插入到ACTTTGTGTGCC(參見“重復”)。
5.短序列重復的可變性,例如在ACTGTGTGCC(A是1991年)中,被命名為1993(TG)3-6,核苷酸1993含有更先進個TG-二核苷酸,在人群中重復3至6次。
6.插入/缺失(indel)被描述為缺失,然后在核苷酸受影響后插入。
112_117delinsTG(或112_117delAGGTCAinsTG或112_117> TG)表示TG取代核苷酸112至117(AGGTCA)
7.倒位由“inv”表示
203_506inv(或203_506inv304)表示位置203至506的304個核苷酸已被倒置。
8.易位
9.不同等位基因的變化(例如隱性疾?。┍幻枋鰹?ldquo;[改變等位基因1] + [改變等位基因2]”
[76A> C] + [76A> C]表示核苷酸76處的純合子A至C變化。
[76A> C] + [?]表示一個等位基因中核苷酸76的A至C變化和另一個等位基因的未知變化。
10.一個等位基因的兩個變異 被描述為“[更先進次變化+第二次變化]”
[76A> C; 83G> C]表示核苷酸76處的A至C變化以及同一等位基因中核苷酸83處的G至C變化。
二、RNA水平
RNA水平的序列變化基本上被描述為DNA水平的變化,具有以下修飾/添加。
“r.”用于表示在RNA水平上描述了變化。
1.核苷酸由堿基指定(小寫); a(腺嘌呤),c(胞嘧啶),g(鳥嘌呤)和u(尿嘧啶)
78u> a表示在核苷酸78處U變?yōu)锳。
2.當一個變化影響RNA處理,產(chǎn)生兩個或多個轉(zhuǎn)錄本時,這些在方括號之間描述,用“,”字符分隔。
[r.76a> c,r.76a> c; r.73_88del]表示核苷酸變化c.76A> C導致兩個RNA分子的出現(xiàn),一個僅攜帶這種變異,另一個含有核苷酸73-88的缺失(剪接供體位點移位到外顯子)
[r.=,r.88_89ins88 + 1_88 + 10; r.88 + 2t> c]表示內(nèi)含子突變c.88 + 2T> C導致兩個RNA分子的出現(xiàn),一個正常(r.=),一個含有插入內(nèi)含子核苷酸88 + 1到88 + 10,核苷酸變化88 + 2t> c。
[r.88g>a; r.88_89ins88+1_88+10]表示核苷酸變化c.88G> A導致內(nèi)含子核苷酸88 + 1至88 + 10的插入(剪接供體位點向內(nèi)含位置的移位)
三、蛋白水平
蛋白質(zhì)水平的序列變化基本上描述為DNA水平的序列變化,具有以下修飾/添加。
使用單字母氨基酸代碼,“X”表示翻譯終止密碼子。
氨基酸編號;翻譯起始蛋氨酸編號為+1。
氨基酸變化的描述
1.替換
錯義變化W26C表示氨基酸26(色氨酸,W)變?yōu)榘腚装彼幔–)
注意:多態(tài)變體有時被描述為36L / I,但這并未被推薦
無義變化W26X表示氨基酸26(色氨酸,W)變?yōu)榻K止密碼子(X)
翻譯起始甲硫氨酸(M1)的突變主要被描述為取代,例如M1V。這是不正確的。不產(chǎn)生蛋白質(zhì)或翻譯起始位點向上或向下移動。除非有實驗證據(jù),否則賊好將蛋白質(zhì)水平的影響報告為“p.?”(未知)。當實驗數(shù)據(jù)顯示沒有制造蛋白質(zhì)時,描述“p.0”可能是賊合適的
2.缺失
K29del(C是氨基酸28)表示氨基酸賴氨酸29(K)缺失從序列CKMGHQQQCC至CMGHQQQCC
C28_M30del表示從半胱氨酸28到甲硫氨酸30的三個氨基酸的缺失
序列CKMGHQQQCC中的Q35del(C是氨基酸28)表示對CKMGHQQCC的谷氨酰胺35(Q)缺失。
如果缺失在缺失連接處產(chǎn)生新的氨基酸,則該變化被描述為插入/缺失,例如C28_M30delinsW(見下文)
3.重復
序列CKMGHQQQCC中的G31_Q33dup(C是氨基酸28)表示氨基酸甘氨酸31(G)到谷氨酰胺33(Q)CKMGHQGHQQQCC的重復
單個氨基酸序列(或短串聯(lián)重復序列)中的重復插入被描述為重復,例如,CKMGHQHQCC(C是氨基酸28)的HQ-串聯(lián)重復序列中的HQ插入至CKMGHQHQHQCC是H34_Q35dup(現(xiàn)在Q35_C36insHQ)
4.插入
注意:作為分隔符,有時會使用“^” - 字符,但不建議這樣做(例如,Q83 ^ C84 insQ)
K29_M29insQSK表示序列QSK插入氨基酸賴氨酸29(K)和甲硫氨酸30(M)之間,將CKMGHQQQCC(C為氨基酸28)改變?yōu)镃KQSKMGHQQQCC
序列中的Q35dup CKMGHQQQCC(C是氨基酸28)表示谷氨酰胺(Q)重復插入 CKMGHQQQQCC(參見“重復”)
如果插入在插入連接處產(chǎn)生新的氨基酸,則該變化被描述為插入/缺失,例如C28 delin sWV(見下文)
5.短序列重復的可變性,例如在CKMGHQQQCC(C是氨基酸28)中,被指定為33(Q)3-6,其中氨基酸谷氨酰胺33(Q,更先進個重復的氨基酸)被發(fā)現(xiàn)在人群中重復3-6次
6.插入/缺失(indel)被描述為缺失,然后在核苷酸受影響后插入
C28_K29delinsW表示影響半胱氨酸28和賴氨酸29的密碼子的3bp缺失,將它們替換為色氨酸
密碼子C28delinsWV表示在半胱氨酸28的密碼子中插入3bp,是使密碼子產(chǎn)生色氨酸(W)和纈氨酸(V)
7.移框突變
R97fsX121(替代R97Xfs)表示精氨酸97作為更先進個受影響的氨基酸移碼突變,新的閱讀框開放23個氨基酸。
四:基因檢測報告看得懂啦!
規(guī)范和嚴謹?shù)?a href=http://deyicom.cn/tk/jiema/cexujishu/2021/31933.html>基因檢測報告需要遵循上述標準,學習本文后,基因檢測報告看得懂啦。