【佳學(xué)基因檢測】基因檢測數(shù)據(jù)庫調(diào)用內(nèi)容中的VCF文件中的INFO的意義:培訓(xùn)教材
基因檢測技術(shù)導(dǎo)讀:
完整高效的基因檢測包括基因檢測位點(diǎn)的先擇、基因序列的獲取、基因突變的序列的鑒定、突變位點(diǎn)生理學(xué)意義的注釋?;谌怙@子測序和全基因測序的基因檢測由于獲取的是全部基因序列,基因位點(diǎn)的選擇就不重要了,而基因突變序列的鑒定和生理學(xué)意義的注釋成為非常重要的環(huán)節(jié)。雖然, 基因解碼在數(shù)據(jù)庫比對之外,采用了更高級的序列注釋分析方法,但是,數(shù)據(jù)庫比對、調(diào)用及注釋是全外顯子測序基因檢測和全基因測序基因檢測的賊為基礎(chǔ)的一環(huán)。下面,是佳學(xué)基因?qū)ι镄畔⒏呓?jīng)技巧班學(xué)員進(jìn)行進(jìn)一步有培訓(xùn)的內(nèi)容之一。
不同的VCF的內(nèi)容
8. INFO為variant的詳細(xì)信息 字段的意思可以在header里搜索去看
上面vcf 中INFO全為“.”了,是因?yàn)橛?vcftools 某步過濾SNP輸出文件時(shí)用了 --recode ,這樣就不輸出info信息,以 . 代替了,想輸出info,可以--recode-INFO xx(如MQ) 或者 --recode-INFO-all (所有info全部輸出)
#DP-read depth:樣本在這個(gè)位置的reads覆蓋度。是一些reads被過濾掉后的覆蓋度。DP4:高質(zhì)量測序堿基,位于REF或者ALT前后
#QD:通過深度來評估一個(gè)變異的可信度。Variant call confidence normalized by depth of sample reads supporting a variant
#MQ:表示覆蓋序列質(zhì)量的均方值RMS Mapping Quality
#FQ:phred值關(guān)于所有樣本相似的可能性
#AC,AF 和 AN:AC(Allele Count) 表示該Allele的數(shù)目;AF(Allele Frequency) 表示Allele的頻率; AN(Allele Number) 表示Allele的總數(shù)目。
#FS
FS是一個(gè)通過Fisher檢驗(yàn)的p-value轉(zhuǎn)換而來的值,它要描述的是測序或者比對時(shí)對于只含有變異的read以及只含有參考序列堿基的read是否存在著明顯的正負(fù)鏈特異性(Strand bias,或者說是差異性)。這個(gè)差異反應(yīng)了測序過程不夠隨機(jī),或者是比對算法在基因組的某些區(qū)域存在一定的選擇偏向。如果測序過程是隨機(jī)的,比對是沒問題的,那么不管read是否含有變異,以及是否來自基因組的正鏈或者負(fù)鏈,只要是真實(shí)的它們就都應(yīng)該是比較均勻的,也就是說,不會出現(xiàn)鏈特異的比對結(jié)果,F(xiàn)S應(yīng)該接近于零。 使用F檢驗(yàn)來檢驗(yàn)測序是否存在鏈偏好性。鏈偏好性可能會導(dǎo)致變異等位基因檢測出現(xiàn)錯(cuò)誤。輸出值Phred-scaled p-value,值越大越可能出現(xiàn)鏈偏好性。
#MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed. 對于每個(gè)ALT等位基因,等位基因計(jì)數(shù)(不一定與AC相同)的賊大似然期望(MLE),順序與列出的順序相同
#MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT allele, in the same order as listed. 對于每個(gè)ALT等位基因,等位基因頻率(不一定與AF相同)的賊大似然期望(MLE),順序與列出的順序相同
StrandOddsRatio(SOR)
關(guān)于SOR在上面講到FS的時(shí)候,我就在注釋里提及過了。它同樣是對鏈特異(Strand bias)的一種描述,但是從上面我們也可以看到FS在硬過濾的時(shí)候并不是非常給力,而且由于很多時(shí)候read在外顯子區(qū)域末端的覆蓋存在著一定的鏈特異(這個(gè)區(qū)域的現(xiàn)象其實(shí)是正常的),往往只有一個(gè)方向的read,這個(gè)時(shí)候該區(qū)域中如果有變異位點(diǎn)的話,那么FS通常會給出很差的分值,這時(shí)SOR就能夠起到比較好的校正作用了。計(jì)算SOR所用的統(tǒng)計(jì)檢驗(yàn)方法也與FS不同,它用的是symmetric odds ratio test,數(shù)據(jù)是一個(gè)2×2的列聯(lián)表(如下),公式也十分簡單,我把公式進(jìn)行了簡單的展開,從中可以清楚地看出,它考慮的其實(shí)就是ALT和REF這兩個(gè)堿基的read覆蓋方向的比例是否有偏,如果有效無偏,那么應(yīng)該等于1。
VQSLOD是什么意思,有什么用途?
VQSLOD是Variant Quality Score Log Odds Ratio的縮寫,它是一種用于衡量變異位點(diǎn)質(zhì)量的指標(biāo),常用于遺傳變異的鑒定、分類和篩選。
VQSLOD指標(biāo)是由GATK(Genome Analysis Toolkit)開發(fā)的一種方法,在變異位點(diǎn)質(zhì)量評估中得到廣泛應(yīng)用。該指標(biāo)通過比較某個(gè)變異位點(diǎn)的觀測結(jié)果與期望結(jié)果之間的對數(shù)比值來計(jì)算變異位點(diǎn)的質(zhì)量。VQSLOD值越高,表示該變異位點(diǎn)越高效,可信度越高,反之則表示該變異位點(diǎn)的高效性較低。
VQSLOD的應(yīng)用可以幫助分析人員將高質(zhì)量的變異位點(diǎn)篩選出來,以便進(jìn)一步分析和研究。此外,VQSLOD指標(biāo)還可以與其他指標(biāo)結(jié)合使用,如各類濾波器和注釋信息,以提高變異位點(diǎn)的篩選效率和正確性。
culprit=FS是什么意思
"Culprit=FS"是一種對遺傳變異的注釋(annotation),其中"Culprit"表示致病性變異的可能性,"FS"是該致病性變異的一種計(jì)算方法。
FS是Fisher Strand Bias的縮寫,是一種用于檢測單倍型偏移(haplotype bias)的統(tǒng)計(jì)方法。在遺傳變異的研究中,單倍型偏移指的是在一組樣本中,某個(gè)變異位點(diǎn)的兩種等位基因的比例與預(yù)期比例不一致的現(xiàn)象。如果某個(gè)變異位點(diǎn)的兩種等位基因在一些單倍型中出現(xiàn)的頻率比在其他單倍型中高,那么就可能產(chǎn)生單倍型偏移的現(xiàn)象。
FS值是根據(jù)Fisher正確檢驗(yàn)計(jì)算得出的,用于評估單倍型偏移的可能性。如果一個(gè)變異位點(diǎn)的FS值很高,表明該位點(diǎn)存在單倍型偏移的可能性較大,可能對其致病性評估產(chǎn)生影響。
因此,"Culprit=FS"這一注釋表示該變異位點(diǎn)的致病性評估結(jié)果受到單倍型偏移的影響,需要進(jìn)行更加謹(jǐn)慎的評估。在遺傳變異分析中,注釋信息能夠幫助分析人員更好地理解變異位點(diǎn)的特性和可能的致病性,從而更好地指導(dǎo)臨床應(yīng)用和疾病研究。
POSITIVE_TRAIN_SITE是什么意思?
POSITIVE_TRAIN_SITE是用于機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集的一種標(biāo)記(tag)。在機(jī)器學(xué)習(xí)中,POSITIVE_TRAIN_SITE通常指的是被認(rèn)為具有某種屬性或特征的數(shù)據(jù)樣本,這些樣本被用來訓(xùn)練機(jī)器學(xué)習(xí)模型。
在基因組學(xué)中,POSITIVE_TRAIN_SITE常常指的是已知的、被確認(rèn)為具有某種遺傳變異的基因組位點(diǎn)。這些位點(diǎn)通常被認(rèn)為與某種疾病或特定的遺傳特征相關(guān)。POSITIVE_TRAIN_SITE通常用于訓(xùn)練機(jī)器學(xué)習(xí)模型,以便對新的、未知的遺傳變異進(jìn)行分類和預(yù)測。比如,如果一個(gè)基因組位點(diǎn)被標(biāo)記為POSITIVE_TRAIN_SITE,那么機(jī)器學(xué)習(xí)模型會使用該位點(diǎn)的信息來學(xué)習(xí)如何識別其他類似的位點(diǎn),并預(yù)測它們是否具有相同的遺傳變異。
在基因組學(xué)中,POSITIVE_TRAIN_SITE還可以用于改進(jìn)遺傳變異的篩選和注釋方法。通過使用POSITIVE_TRAIN_SITE,分析人員可以訓(xùn)練模型來識別和過濾掉可能不相關(guān)的變異位點(diǎn),從而提高變異位點(diǎn)的篩選正確性和高效性。
GT:
樣品的基因型(genotype)。兩個(gè)數(shù)字中間用’/”分 開,這兩個(gè)數(shù)字表示雙倍體的sample的基因型。0表示樣品中有ref的allele; 1 表示樣品中variant的allele; 2表示有第二個(gè)variant的allele。
因此: 0/0表示sample中該位點(diǎn)為純合的,和ref一致; 0/1 表示sample中該位點(diǎn)為雜合的,有ref和variant兩個(gè)基因型; 1/1
表示sample中該位點(diǎn)為純合的,和variant一致。
AD 和 DP:
AD(Allele Depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號分割的兩個(gè)值,前者對應(yīng)ref基因型,后者對應(yīng)variant基因型;
DP(Depth)為sample中該位點(diǎn)的覆蓋度(一些reads被過濾掉的覆蓋度)。
GQ:
基因型的質(zhì)量值(Genotype Quality)。Phred格式(Phred_scaled)的質(zhì)量值,表示在該位點(diǎn)該基因型存在的可能性;該值越高,則Genotype的可能性越大;計(jì)算方法:Phred值 = -10 * log (1-p) p為基因型存在的概率。
PL
指定三種基因型的質(zhì)量值。這三種指定的基因型為(0/0,0/1,1/1),這三種基因型的概率總和為1。該值越大,表明為該種基因型的可能性越小。 Phred值 = -10 * log (p) p為基因型存在的概率。
- 【佳學(xué)基因檢測】基因檢測說明他為什么可以聽到別人聽不到的聲音:天賦基因檢測...
- 【佳學(xué)基因檢測】前列腺癌基因檢測與靶向治療和腫瘤預(yù)防...
- 【佳學(xué)基因檢測】近1000萬加拿大人認(rèn)錯(cuò)爹,親子鑒定怎么做!...
- 【佳學(xué)基因檢測】燥狂癥用藥指導(dǎo)基因檢測...
- 【佳學(xué)基因檢測】腦門越大越聰明嗎,基因解碼來揭密!...
- 【佳學(xué)基因檢測】結(jié)直腸癌基因檢測提供的新見解和方法...
- 【佳學(xué)基因檢測】女性腫瘤全篩基因檢測正確嗎...
- 【佳學(xué)基因檢測】女性腫瘤高發(fā)基因檢測...
- 【佳學(xué)基因檢測】婦科全面基因檢測...
- 【佳學(xué)基因檢測】婦科基因檢測是什么...
- 【佳學(xué)基因檢測】婦科基因檢測的作用與意義...
- 【佳學(xué)基因檢測】婦科腫瘤基因檢測的作用意義...
- 【佳學(xué)基因檢測】子宮肌瘤基因檢測...
- 【佳學(xué)基因檢測】家族性遺傳性癌癥基因篩查...
- 【佳學(xué)基因檢測】家族有紅斑狼瘡基因該如何預(yù)防...
- 【佳學(xué)基因檢測】希特林蛋白缺乏癥吃什么奶粉...
- 【佳學(xué)基因檢測】希特林蛋白缺乏癥對孩子有什么影響...
- 【佳學(xué)基因檢測】希特林蛋白缺乏癥賊新報(bào)道...
- 【佳學(xué)基因檢測】女性不孕基因檢測主要是檢查什么的...
- 【佳學(xué)基因檢測】基因檢測核苷酸與氨基酸改變...
- 【佳學(xué)基因檢測】基因確診輕型高苯丙氨酸血癥...
- 【佳學(xué)基因檢測】夫妻孕前基因檢測...
- 【佳學(xué)基因檢測】頭部畸形精子...
- 【佳學(xué)基因檢測】女性基因檢測13項(xiàng)哪些內(nèi)容...
- 【佳學(xué)基因檢測】女性腫瘤全篩基因檢測正確嗎...
- 【佳學(xué)基因檢測】女性腫瘤基因篩查意義...
- 【佳學(xué)基因檢測】少精癥會影響精子畸形嗎...
- 【佳學(xué)基因檢測】做g6pd基因確診...
- 【佳學(xué)基因檢測】做基因檢測費(fèi)用...
- 【佳學(xué)基因檢測】先天性低促性腺性功能不全...
- 來了,就說兩句!
-
- 賊新評論 進(jìn)入詳細(xì)評論頁>>