【佳學(xué)基因檢測(cè)】基因解碼基礎(chǔ):VCF格式文件是怎么貯存基因信息的?
遺傳病、罕見病基因檢測(cè)導(dǎo)讀:
正確理解并應(yīng)用基因信息包含兩個(gè)階段,一是基因測(cè)序階段,一個(gè)是建立《人的基因序列變化與人體疾病表征》的關(guān)系兩個(gè)階段。盡管后者有數(shù)據(jù)庫比對(duì)法和基因解碼法,但是獲取基因序列,并對(duì)基因序列進(jìn)行正確記錄和傳遞是第一個(gè)階段。本文介紹了用來來貯存人體基因序列的一種格式文件,理解VCF格式文件及其貯存基因序列的方式,是基因庫比對(duì)方法和基因解碼的基礎(chǔ)。1. 什么是VCF?
VCF是用于描述SNP,INDEL和SV結(jié)果的文本文件。在GATK軟件中得到賊好的支持,當(dāng)然SAMtools得到的結(jié)果也是VCF格式,和GATK的VCF格式有點(diǎn)差別。
2. VCF的主體結(jié)構(gòu)
先給出一個(gè)VCF文件的范例:
##fileformat=VCFv4.0
##FILTER=<ID=LowQual,Description="QUAL < 50.0">
##FORMAT=<ID=AD,Number=.,Type=Integer,Description="Allelic depths for the ref and alt alleles in the order listed">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth (only filtered reads used for calling)">
##FORMAT=<ID=GQ,Number=1,Type=Float,Description="Genotype Quality">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=PL,Number=3,Type=Float,Description="Normalized, Phred-scaled likelihoods for AA,AB,BB genotypes where A=ref and B=alt; not applicable if site is not biallelic">
##INFO=<ID=AC,Number=.,Type=Integer,Description="Allele count in genotypes, for each ALT allele, in the same order as listed">
##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency, for each ALT allele, in the same order as listed">
##INFO=<ID=AN,Number=1,Type=Integer,Description="Total number of alleles in called genotypes">
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP Membership">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=DS,Number=0,Type=Flag,Description="Were any of the samples downsampled?">
##INFO=<ID=Dels,Number=1,Type=Float,Description="Fraction of Reads Containing Spanning Deletions">
##INFO=<ID=HRun,Number=1,Type=Integer,Description="Largest Contiguous Homopolymer Run of Variant Allele In Either Direction">
##INFO=<ID=HaplotypeScore,Number=1,Type=Float,Description="Consistency of the site with two (and only two) segregating haplotypes">
##INFO=<ID=MQ,Number=1,Type=Float,Description="RMS Mapping Quality">
##INFO=<ID=MQ0,Number=1,Type=Integer,Description="Total Mapping Quality Zero Reads">
##INFO=<ID=QD,Number=1,Type=Float,Description="Variant Confidence/Quality by Depth">
##INFO=<ID=SB,Number=1,Type=Float,Description="Strand Bias">
##INFO=<ID=VQSLOD,Number=1,Type=Float,Description="log10-scaled probability of variant being true under the trained gaussian mixture model">
##UnifiedGenotyperV2="analysis_type=UnifiedGenotyperV2 input_file=[TEXT CLIPPED FOR CLARITY]"
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA12878
chr1 873762 . T G 5231.78 PASS AC=1;AF=0.50;AN=2;DP=315;Dels=0.00;HRun=2;HaplotypeScore=15.11;MQ=91.05;MQ0=15;QD=16.61;SB=-1533.02;VQSLOD=-1.5473 GT:AD:DP:GQ:PL 0/1:173,141:282:99:255,0,255
chr1 877664 rs3828047 A G 3931.66 PASS AC=2;AF=1.00;AN=2;DB;DP=105;Dels=0.00;HRun=1;HaplotypeScore=1.59;MQ=92.52;MQ0=4;QD=37.44;SB=-1152.13;VQSLOD= 0.1185 GT:AD:DP:GQ:PL 1/1:0,105:94:99:255,255,0
chr1 899282 rs28548431 C T 71.77 PASS AC=1;AF=0.50;AN=2;DB;DP=4;Dels=0.00;HRun=0;HaplotypeScore=0.00;MQ=99.00;MQ0=0;QD=17.94;SB=-46.55;VQSLOD=-1.9148 GT:AD:DP:GQ:PL 0/1:1,3:4:25.92:103,0,26
chr1 974165 rs9442391 T C 29.84 LowQual AC=1;AF=0.50;AN=2;DB;DP=18;Dels=0.00;HRun=1;HaplotypeScore=0.16;MQ=95.26;MQ0=0;QD=1.66;SB=-0.98 GT:AD:DP:GQ:PL 0/1:14,4:14:60.91:61,0,255
從范例上看,VCF文件分為兩部分內(nèi)容:以“#”開頭的注釋部分;沒有“#”開頭的主體部分。
值得注意的是,注釋部分有很多對(duì)VCF的介紹信息。實(shí)際上不需要本文章,只是看看這個(gè)注釋部分就有效明白了VCF各行各列代表的意義。我們先講VCF文件主題部分的結(jié)構(gòu),如下所示:
[HEADER LINES] #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA12878 chr1 873762 . T G 5231.78 PASS [ANNOTATIONS] GT:AD:DP:GQ:PL 0/1:173,141:282:99:255,0,255 chr1 877664 rs3828047 A G 3931.66 PASS [ANNOTATIONS] GT:AD:DP:GQ:PL 1/1:0,105:94:99:255,255,0 chr1 899282 rs28548431 C T 71.77 PASS [ANNOTATIONS] GT:AD:DP:GQ:PL 0/1:1,3:4:25.92:103,0,26 chr1 974165 rs9442391 T C 29.84 LowQual [ANNOTATIONS] GT:AD:DP:GQ:PL 0/1:14,4:14:60.91:61,0,255
以上去掉了頭部的注釋行,只留下了代表每一行意義的注釋行。主體部分中每一行代表一個(gè)Variant的信息。
3. VCF格式文件怎么記錄一個(gè)人的基因信息?
CHROM 和 POS:記錄的是基因序列染色體和坐標(biāo),如果是INDEL的話,位置是INDEL的第一個(gè)堿基位置,有這兩個(gè)參數(shù),就可以將測(cè)序結(jié)果與人體的特定的一個(gè)基因信息固定下來。
ID:數(shù)據(jù)庫中已經(jīng)有過的變異序列的代碼。比如在dbSNP中有該SNP的代碼,則會(huì)在此行給出;若沒有,則用’.’表示這是一個(gè)受檢者所特有的突變序列,在其他人身上沒有。由于這是是用一個(gè)"."來表示,經(jīng)過測(cè)序后,這樣的點(diǎn)有很多,數(shù)據(jù)庫比對(duì)就無法對(duì)這一突變對(duì)體的影響進(jìn)行分析,需要采用新的分析策略。
REF 和 ALT:參考序列的DNA字母 和 可能出現(xiàn)的不同的DNA字母。
QUAL:Phred格式(Phred_scaled)的質(zhì)量值,表示在該位點(diǎn)存在variant的可能性;該值越高,則variant的可能性越大;計(jì)算方法:Phred值 = -10 * log (1-p) p為variant存在的概率; 通過計(jì)算公式可以看出值為10的表示錯(cuò)誤概率為0.1,該位點(diǎn)為variant的概率為90%。
FILTER:使用上一個(gè)QUAL值來進(jìn)行過濾的話,是不夠的。GATK能使用其它的方法來進(jìn)行過濾,過濾結(jié)果中通過則該值為”PASS”;若variant不高效,則該項(xiàng)不為”PASS”或”.”。
INFO: 這一行是variant的詳細(xì)信息,內(nèi)容很多,以下再具體詳述。
FORMAT 和 NA12878:這兩行合起來提供了’NA12878’這個(gè)sample的基因型的信息。’NA12878’代表這該名稱的樣品,是由BAM文件中的@RG下的 SM 標(biāo)簽決定的。
4. 基因型信息
chr1 873762 . T G [CLIPPED] GT:AD:DP:GQ:PL 0/1:173,141:282:99:255,0,255 chr1 877664 rs3828047 A G [CLIPPED] GT:AD:DP:GQ:PL 1/1:0,105:94:99:255,255,0 chr1 899282 rs28548431 C T [CLIPPED] GT:AD:DP:GQ:PL 0/1:1,3:4:25.92:103,0,26
看上面賊后兩列數(shù)據(jù),這兩列數(shù)據(jù)是對(duì)應(yīng)的,前者為格式,后者為格式對(duì)應(yīng)的數(shù)據(jù)。
GT:樣品的基因型(genotype)。兩個(gè)數(shù)字中間用’/’分開,這兩個(gè)數(shù)字表示雙倍體的sample的基因型。0 表示樣品中有ref的allele; 1 表示樣品中variant的allele; 2表示有第二個(gè)variant的allele。因此: 0/0 表示sample中該位點(diǎn)為純合的,和ref一致; 0/1 表示sample中該位點(diǎn)為雜合的,有ref和variant兩個(gè)基因型; 1/1 表示sample中該位點(diǎn)為純合的,和variant一致。
AD 和 DP:AD(Allele Depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號(hào)分割的兩個(gè)值,前者對(duì)應(yīng)ref基因型,后者對(duì)應(yīng)variant基因型; DP(Depth)為sample中該位點(diǎn)的覆蓋度。
GQ:基因型的質(zhì)量值(Genotype Quality)。Phred格式(Phred_scaled)的質(zhì)量值,表示在該位點(diǎn)該基因型存在的可能性;該值越高,則Genotype的可能性越大;計(jì)算方法:Phred值 = -10 * log (1-p) p為基因型存在的概率。
PL:指定的三種基因型的質(zhì)量值(provieds the likelihoods of the given genotypes)。這三種指定的基因型為(0/0,0/1,1/1),這三種基因型的概率總和為1。和之前不一致,該值越大,表明為該種基因型的可能性越小。 Phred值 = -10 * log (p) p為基因型存在的概率。
5. VCF第8列的信息
該列信息賊多了,都是以 “TAG=Value”,并使用”;”分隔的形式。其中很多的注釋信息在VCF文件的頭部注釋中給出。以下是這些TAG的解釋
AC,AF 和 AN:AC(Allele Count) 表示該Allele的數(shù)目;AF(Allele Frequency) 表示Allele的頻率; AN(Allele Number) 表示Allele的總數(shù)目。對(duì)于1個(gè)diploid sample而言:則基因型 0/1 表示sample為雜合子,Allele數(shù)為1(雙倍體的sample在該位點(diǎn)只有1個(gè)等位基因發(fā)生了突變),Allele的頻率為0.5(雙倍體的sample在該位點(diǎn)只有50%的等位基因發(fā)生了突變),總的Allele為2; 基因型 1/1 則表示sample為純合的,Allele數(shù)為2,Allele的頻率為1,總的Allele為2。
DP:reads覆蓋度。是一些reads被過濾掉后的覆蓋度。
Dels:Fraction of Reads Containing Spanning Deletions。進(jìn)行SNP和INDEL calling的結(jié)果中,有該TAG并且值為0表示該位點(diǎn)為SNP,沒有則為INDEL。
FS:使用Fisher’s正確檢驗(yàn)來檢測(cè)strand bias而得到的Fhred格式的p值。該值越小越好。一般進(jìn)行filter的時(shí)候,可以設(shè)置 FS < 10~20。
HaplotypeScore:Consistency of the site with at most two segregating haplotypes
InbreedingCoeff:Inbreeding coefficient as estimated from the genotype likelihoods per-sample when compared against the Hard-Weinberg expectation
MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed
MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT alle in the same order as listed
MQ:RMS Mapping Quality
MQ0:Total Mapping Quality Zero Reads
MQRankSum:Z-score From Wilcoxon rank sum test of Alt vs. Ref read mapping qualities
QD:Variant Confidence/Quality by Depth
RPA:Number of times tandem repeat unit is repeated, for each allele (including reference)
RU:Tandem repeat unit (bases)
ReadPosRankSum:Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias
STR:Variant is a short tandem repeat
- 上一篇:【佳學(xué)基因?qū)@夹g(shù)】單細(xì)胞全基因組擴(kuò)增技術(shù)的應(yīng)用
- 下一篇:【佳學(xué)基因檢測(cè)】基因解碼基礎(chǔ):如何從VCF格式文件中獲取基因測(cè)序數(shù)據(jù)?
- 【佳學(xué)基因檢測(cè)】什么是MLPA基因檢測(cè)?有什么優(yōu)點(diǎn)?...
- 【佳學(xué)基因檢測(cè)】如何將全基因組測(cè)序(WGS)基因檢測(cè)數(shù)據(jù)定位到人的標(biāo)準(zhǔn)基因組上?...
- 【佳學(xué)基因檢測(cè)】FISH基因檢測(cè)中的探針類型選擇...
- 【佳學(xué)基因檢測(cè)】腫瘤基因檢測(cè)生物信息分析注意事項(xiàng)...
- 【佳學(xué)基因檢測(cè)】癌癥基因組檢測(cè)要點(diǎn):一定要知道!...
- 【佳學(xué)基因檢測(cè)】什么是基因組檢測(cè)?...
- 【佳學(xué)基因檢測(cè)】TP53突變基因檢測(cè)...
- 【佳學(xué)基因檢測(cè)】基因解碼對(duì)Y染色體的進(jìn)一步解密...
- 【佳學(xué)基因檢測(cè)】腫瘤基因檢測(cè)需要包括重復(fù)或反復(fù)區(qū)域的分析嗎?...
- 【佳學(xué)基因檢測(cè)】如何采用液體活檢檢進(jìn)行細(xì)胞學(xué)檢測(cè)與NGS測(cè)序...
- 【佳學(xué)基因檢測(cè)】臨床科研服務(wù):GWAS課題中的統(tǒng)計(jì)分析...
- 【佳學(xué)基因檢測(cè)】腫瘤靶向藥物Regorafenib (Stivarga) 及其在結(jié)直腸癌治療中的作用...
- 【佳學(xué)基因檢測(cè)】ALDOA的群體遺傳學(xué)結(jié)果對(duì)基因檢測(cè)正確性的影響...
- 【佳學(xué)基因檢測(cè)】SLC25A4的雙生子遺傳學(xué)分析結(jié)果簡(jiǎn)介...
- 【佳學(xué)基因檢測(cè)】ASIC1的分子遺傳學(xué)分析成果...
- 【佳學(xué)基因檢測(cè)】ANXA6分子病理學(xué)成果概要...
- 【佳學(xué)基因檢測(cè)】檢驗(yàn)科醫(yī)師晉升考試關(guān)于ADRA2C的知識(shí)...
- 【佳學(xué)基因檢測(cè)】醫(yī)學(xué)院碩士研究考試關(guān)于ACVR2A基因檢測(cè)的知識(shí)要點(diǎn)...
- 【佳學(xué)基因檢測(cè)】醫(yī)學(xué)博士ANK1基因檢測(cè)的知識(shí)結(jié)構(gòu)準(zhǔn)備...
- 【佳學(xué)基因檢測(cè)】醫(yī)學(xué)院專升本關(guān)于ADCYAP1R1基因檢測(cè)的基本技能...
- 【佳學(xué)基因檢測(cè)】病例分析會(huì)中需要知道的關(guān)于ACLY基因的知識(shí)...
- 【佳學(xué)基因檢測(cè)】病案討論中需要知道的關(guān)于AIF1的知識(shí)...
- 【佳學(xué)基因檢測(cè)】質(zhì)譜基因檢測(cè)AGTR2基因存在基因突變?cè)撛趺蠢斫猓?/strong>...
- 【佳學(xué)基因檢測(cè)】飛行質(zhì)譜基因檢測(cè)發(fā)現(xiàn)ADRA2A有突變,嚴(yán)重嗎?...
- 【佳學(xué)基因檢測(cè)】核型分析發(fā)現(xiàn)NAT1突變了,是什么意思?...
- 【佳學(xué)基因檢測(cè)】遺傳學(xué)檢測(cè)結(jié)果指出ALOX15突變,該找誰咨詢?...
- 【佳學(xué)基因檢測(cè)】高精度基因檢測(cè)為什么包含ADD1基因?...
- 【佳學(xué)基因檢測(cè)】基因檢測(cè)包中為什么一定要有ACTA2基因?...
- 【佳學(xué)基因檢測(cè)】基因檢測(cè)時(shí)查看是否包含ADH1C重要嗎?...
- 【佳學(xué)基因檢測(cè)】NR0B1基因間序列存在突變是否需要阻斷遺傳?...
- 來了,就說兩句!
-
- 賊新評(píng)論 進(jìn)入詳細(xì)評(píng)論頁>>