【佳學基因檢測】基因解碼如何構(gòu)建人的標準基因序列數(shù)據(jù)庫的?
人類標準基因數(shù)據(jù)庫導讀:
佳學基因通過編輯人類全基因測序數(shù)據(jù),消除測序誤差和個體特意性序列,為人類基因信息的每一個位點規(guī)范數(shù)字化坐標,再將人體組織結(jié)構(gòu)和功能的組成成分的編碼序列按照坐標、及其基因信息的傳遞方式注釋清楚。在進行人的致病基因鑒定基因解碼、用藥指導基因解碼等應用的過程中,先采用商用的高通量測序儀器,獲得沒有定位的基因片段序列。隨后采用生物信息學工具,將片段化的基因序列與標準序列進行比對。將大部分正確的序列進行忽略,只顯示出個體異常序列。再通過對個體異常序列生物學意義、在用藥指導上的作用,致病性分析,從而獲得基因檢測報告。由此而知,佳學基因人類基因組標準序列是基因檢測的參照序列。參照序列的完整性是基因檢測完整性高效的先進步。
人類標準基因組數(shù)庫的數(shù)據(jù)結(jié)構(gòu)
人類標準基因組數(shù)據(jù)庫的基礎數(shù)據(jù)以文本文件的形式存儲,通常含有refgene以區(qū)分其他數(shù)據(jù)庫,同時含有版本號,以區(qū)分不同時期采用的不同形式。佳學基因在開發(fā)升級新的參照基因組時,常常編寫版本轉(zhuǎn)換程序,以確保基因解碼過程的向前兼容。
字段名 | 數(shù)據(jù)樣例 | SQL數(shù)據(jù)庫數(shù)據(jù)形式 | 數(shù)據(jù)形式 | 描述說明 |
---|---|---|---|---|
bin | 2085 | smallint(5) unsigned | range | 索引字段,以加快大容量數(shù)據(jù)根據(jù)基因信息區(qū)進行索引。 |
name | NR_046630 | varchar(255) | values | 基因名稱 (通常是轉(zhuǎn)錄本代碼) |
chrom | chr3 | varchar(255) | values | 標準基因組的染色體坐代碼或基因信息框架編號 |
strand | + | char(1) | values | +號和 -號被用來表示在所示區(qū)域內(nèi)的基因信息存方方式 |
txStart | 196666747 | int(10) unsigned | range | 轉(zhuǎn)錄區(qū)域的起始坐標 (反義鏈上的終止坐標) |
txEnd | 196669405 | int(10) unsigned | range | 轉(zhuǎn)錄區(qū)域的終止坐標 (反義鏈上的起點坐標) |
cdsStart | 196669405 | int(10) unsigned | range | 編碼區(qū)域的起始坐標 (反義鏈上的終點坐標) |
cdsEnd | 196669405 | int(10) unsigned | range | 編碼區(qū)域的終點坐標 (反義鏈上的起點坐標) |
exonCount | 3 | int(10) unsigned | range | 外顯子數(shù)目 |
exonStarts | 196666747,196667841,196669263, | longblob | 外顯子起點坐標 (反義鏈上的終點坐標) | |
exonEnds | 196666995,196668013,196669405, | longblob | 外顯子終點坐示 (反應鏈上的起點坐標) | |
score | 0 | int(11) | range | 評分 |
name2 | NCBP2-AS1 | varchar(255) | values | 其他基因名稱 (比如GTF采用的基因編碼) |
cdsStartStat | unk | enum('none', 'unk', 'incmpl', 'cmpl') | values | Status of CDS start annotation (none, unknown, incomplete, or complete) |
cdsEndStat | unk | enum('none', 'unk', 'incmpl', 'cmpl') | values | Status of CDS end annotation (none, unknown, incomplete, or complete) |
exonFrames | -1,-1,-1, | longblob | Exon frame {0,1,2}, or -1 if no frame for exon |
人類標準基因序列數(shù)據(jù)庫數(shù)據(jù)展示
bin | name | chrom | strand | txStart | txEnd | cdsStart | cdsEnd | exonCount | exonStarts | exonEnds | score | name2 | cdsStartStat | cdsEndStat | exonFrames |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2085 | NR_046630 | chr3 | + | 196666747 | 196669405 | 196669405 | 196669405 | 3 | 196666747,196667841,196669263, | 196666995,196668013,196669405, | 0 | NCBP2-AS1 | unk | unk | -1,-1,-1, |
2051 | NR_046598 | chr3 | + | 192232810 | 192234362 | 192234362 | 192234362 | 2 | 192232810,192234269, | 192233297,192234362, | 0 | FGF12-AS2 | unk | unk | -1,-1, |
1312 | NR_046514 | chr13 | + | 95364969 | 95368199 | 95368199 | 95368199 | 2 | 95364969,95365891, | 95365647,95368199, | 0 | SOX21-AS1 | unk | unk | -1,-1, |
585 | NR_106918 | chr1 | - | 17368 | 17436 | 17436 | 17436 | 1 | 17368, | 17436, | 0 | MIR6859-1 | unk | unk | -1, |
585 | NR_107062 | chr1 | - | 17368 | 17436 | 17436 | 17436 | 1 | 17368, | 17436, | 0 | MIR6859-2 | unk | unk | -1, |
585 | NR_107063 | chr1 | - | 17368 | 17436 | 17436 | 17436 | 1 | 17368, | 17436, | 0 | MIR6859-3 | unk | unk | -1, |
585 | NR_128720 | chr1 | - | 17368 | 17436 | 17436 | 17436 | 1 | 17368, | 17436, | 0 | MIR6859-4 | unk | unk | -1, |
585 | NR_036051 | chr1 | + | 30365 | 30503 | 30503 | 30503 | 1 | 30365, | 30503, | 0 | MIR1302-2 | unk | unk | -1, |
585 | NR_036266 | chr1 | + | 30365 | 30503 | 30503 | 30503 | 1 | 30365, | 30503, | 0 | MIR1302-9 | unk | unk | -1, |
585 | NR_036267 | chr1 | + | 30365 | 30503 | 30503 | 30503 | 1 | 30365, | 30503, | 0 | MIR1302-10 | unk | unk |
-1, |
(責任編輯:佳學基因)