【佳學(xué)基因檢測(cè)】如何貯存用于基因序列比對(duì)的全部基因組序列?
人類全基因組參照序列的組成成分
Analysis set 參照基因組分析數(shù)據(jù)集
分析集參考基因組的設(shè)計(jì)參照了與讀取序列進(jìn)行比對(duì)地需求,它與出于瀏覽目的基因序列可能不同。
Contig 連續(xù)序列單元
連續(xù)序列單元,有時(shí)候被稱為重疊群,是指沒“物理”間隙的連續(xù)序列(“N”堿基的延伸在這種情況下不被認(rèn)為是間隙),例如染色體。 也可以是還沒有有效組裝的支架、細(xì)菌基因組中的質(zhì)粒等。
Alternate contigs, alternate scaffolds
或者是alternate loci: 替代連續(xù)序列單元、替代支架、替代位點(diǎn)
替代重疊群、替代支架或替代基因座是指在一種表示方案無法有效正確表示的不同的單倍型。
Primary Assembly 主要組裝體
主要組裝體由 (i) 組裝的染色體、(ii) 未定位(已知屬于特定染色體但順序或方向未知)的基因組序列和 (iii) 未歸屬染色體的序列組成。 它是一個(gè)非冗余的單倍體基因組序列。
PAR
PAR 是指假常染色體區(qū)域。 哺乳動(dòng)物 X 和 Y 染色體中的 PAR 區(qū)域允許性染色體之間進(jìn)行重組。 因?yàn)?PAR 序列一起創(chuàng)建了一個(gè)二倍體或偽常染色體序列區(qū)域,所以 X 和 Y 染色體序列在基因組的組裝中是相同的。 分析集基因組通過遮蔽Y染色體上的兩個(gè)PAR區(qū)域,從而使基因測(cè)序數(shù)據(jù)僅僅被定位到X染色體的PAR區(qū)域。
不同的主要組裝體會(huì)改變基因座的坐標(biāo),并且這種改變很少發(fā)布。 對(duì)于人類基因組來說,Hg19 和 GRCh38/hg38是兩個(gè)不同的組裝體。比較來自不同組裝體的數(shù)據(jù)需要采用提升工具來調(diào)整基因組坐標(biāo),從而實(shí)現(xiàn)基因組的匹配,但有時(shí)并不出色。
PATCHES修復(fù)補(bǔ)丁
補(bǔ)丁是針對(duì)特定的組裝體的的特定區(qū)域的修改。 它們旨在在不破壞染色體坐標(biāo)的情況下提示基因組的組裝或者是添加信息。 有兩種類型的補(bǔ)丁,修改補(bǔ)丁和新補(bǔ)定,它們是指不同類型的序列變化。
修復(fù)補(bǔ)丁表示將在下一個(gè)主要裝配版本中替換主要裝組裝體的序列。 在解釋數(shù)據(jù)時(shí),修復(fù)補(bǔ)丁應(yīng)優(yōu)先于染色體。
新補(bǔ)丁代表替代基因座。 在解釋數(shù)據(jù)時(shí),將新補(bǔ)丁視為種群序列變體。
主要參照基因組組裝體的組成成分示意圖
GRCh38/hg38 是佳學(xué)基因自 2013 年 12 月開始的人類基因組的序列組體。在這一基因組裝體中,使用替代或 ALT 重疊群來表示常見的復(fù)雜變異,包括 HLA 位點(diǎn)。 替代重疊群也出現(xiàn)在過去的組件中,但沒有達(dá)到在 GRCh38 中看到的程度。 在改進(jìn)GRCh38的正確性和有效性的過程中,使用了 自其他基因組測(cè)序和分析的結(jié)果。除了添加許多替代重疊群外,GRCh38 還糾正了數(shù)以千計(jì)的序列錯(cuò)誤,這些錯(cuò)誤會(huì)導(dǎo)致產(chǎn)生錯(cuò)誤的SNP 和插入缺失檢測(cè)結(jié)果。GRCh38版本它還包括合成著絲粒序列和對(duì)非核基因組序列的更新。
GRCh38版本的主要內(nèi)容介紹
主要組裝體:
hg38 的組裝染色體是染色體 1–22 (chr1–chr22)、X (chrX)、Y (chrY) 和線粒體 (chrM)。
未定位的序列
是指在組裝GRCh38初組組裝體時(shí),已明確來自于特定的染色體,但在特定染色體的坐標(biāo)和方向嘗未明確的基因序列,在參照基因組數(shù)據(jù)庫中采用_random 后綴來表示。
未放置的序列
對(duì)于基因序列來源于哪一條染色體還沒有明確的堿基序列,由 chrU_ 前綴來標(biāo)識(shí)。
GRCh38 ALT 重疊群
GRCh38 ALT 重疊群可通過其 _alt 后綴識(shí)別; 它們的總長度為 109Mb,跨越了 60Mb 的主要組裝序列。 替代重疊群序列可以是新穎的、也可以是高度變化的,也會(huì)與相應(yīng)的主要組裝序列幾乎相同。 與主要組裝高度不同的序列僅有幾百萬個(gè)堿基。 大多數(shù) ALT 重疊群的子序列與主要組裝體非常相似。 這意味著如果盲目地將測(cè)序序列定位到 GRCh38+ALT 序列上,那么我們將獲得許多測(cè)序質(zhì)理為零的多定位結(jié)果。 許多基因檢測(cè)機(jī)構(gòu)在對(duì)測(cè)序序列進(jìn)行分析時(shí),會(huì)采用 GATK 工具中的ZeroMappingQuality 過濾器,因此會(huì)錯(cuò)過與此類位點(diǎn)對(duì)應(yīng)的基因突變序列。
佳學(xué)基因解碼介紹了如何以檢測(cè)替代重疊群的方式對(duì)測(cè)序序列進(jìn)行比對(duì)分析,并討論使用參考基因組替代重疊群進(jìn)行比對(duì)對(duì)基因測(cè)序結(jié)果的影響。
偽常染色體區(qū)域
X 和 Y 上的偽常染色體區(qū)域 (PAR) 序列共同創(chuàng)建了一個(gè)二倍體區(qū)域,因此它們?cè)诨蚪M組裝體中是相同的。 在基因組的分析集版本中,對(duì)兩個(gè) Y 染色體 PAR 區(qū)域采用了硬掩蔽技術(shù),以便允許將基因測(cè)序結(jié)果僅僅定位到X 染色體 PAR 區(qū)域。 PAR1和PAR2在GRCh38上的chrY位置是chrY:10,000-2,781,479和chrY:56,887,902-57,217,415。 在下面采用 IGV 查看基因組序列的圖中,可以看到在分析集基因組中,chrY PAR1區(qū)域部分被硬遮蔽。
參考集中的序列是大小寫字母的混合。 小寫字母是采用RepeatMasker 和 Tandem Repeats Finder發(fā)現(xiàn)的重復(fù)序列,采用了軟遮蔽形式。
同源著絲粒和基因組重復(fù)陣列
5、14、19、21 和 22 號(hào)染色體上具有同源著絲粒和基因組重復(fù)陣列的一些其他區(qū)域在分析用基因組組裝中也采用了硬掩蔽方式被遮蔽。
EBV 和誘餌
GRCh38 分析集還包括一個(gè)重疊群,用于獲取對(duì)應(yīng)于 Epstein-Barr 病毒序列的測(cè)序序列,以及誘餌重疊群。 EBV 重疊群可以幫助糾正因 EBV 轉(zhuǎn)化使人血淋巴細(xì)胞永生化而產(chǎn)生的假序。 它還可以用來識(shí)別人體基因組中的內(nèi)源性 EBV 序列,因?yàn)樵谧匀磺闆r下,EBV感染人類約 90% 的 B 細(xì)胞。
補(bǔ)丁序列
補(bǔ)丁序列是指在不破壞染色體坐標(biāo)的情況下,用提高基因組組裝的質(zhì)量,并向組裝本添加信息。 如:GRCh38.p7 表示 GRCh38 的第七個(gè)補(bǔ)丁版本。
染色體 | 全長(bp) | 基因庫數(shù)據(jù)獲取代碼 | 參照基因組獲取代碼 |
---|---|---|---|
1 | 248,956,422 | CM000663.2 | NC_000001.11 |
2 | 242,193,529 | CM000664.2 | NC_000002.12 |
3 | 198,295,559 | CM000665.2 | NC_000003.12 |
4 | 190,214,555 | CM000666.2 | NC_000004.12 |
5 | 181,538,259 | CM000667.2 | NC_000005.10 |
6 | 170,805,979 | CM000668.2 | NC_000006.12 |
7 | 159,345,973 | CM000669.2 | NC_000007.14 |
8 | 145,138,636 | CM000670.2 | NC_000008.11 |
9 | 138,394,717 | CM000671.2 | NC_000009.12 |
10 | 133,797,422 | CM000672.2 | NC_000010.11 |
11 | 135,086,622 | CM000673.2 | NC_000011.10 |
12 | 133,275,309 | CM000674.2 | NC_000012.12 |
13 | 114,364,328 | CM000675.2 | NC_000013.11 |
14 | 107,043,718 | CM000676.2 | NC_000014.9 |
15 | 101,991,189 | CM000677.2 | NC_000015.10 |
16 | 90,338,345 | CM000678.2 | NC_000016.10 |
17 | 83,257,441 | CM000679.2 | NC_000017.11 |
18 | 80,373,285 | CM000680.2 | NC_000018.10 |
19 | 58,617,616 | CM000681.2 | NC_000019.10 |
20 | 64,444,167 | CM000682.2 | NC_000020.11 |
21 | 46,709,983 | CM000683.2 | NC_000021.9 |
22 | 50,818,468 | CM000684.2 | NC_000022.11 |
X | 156,040,895 | CM000685.2 | NC_000023.11 |
Y | 57,227,415 | CM000686.2 | NC_000024.10 |
(責(zé)任編輯:佳學(xué)基因)