【佳學基因檢測】基因解碼如何構(gòu)建人的標準基因序列數(shù)據(jù)庫的？

來源：基因數(shù)據(jù)分析
作者：基因解碼者
時間：2024-07-14 11:21
閱讀數(shù)：次

【佳學基因檢測】基因解碼如何構(gòu)建人的標準基因序列數(shù)據(jù)庫的？人類標準基因數(shù)據(jù)庫導讀：家學基因通過編輯人類全基因測序數(shù)據(jù)，消除測序誤差和個體特意性序列，為人類基因信息的每一

【佳學基因檢測】基因解碼如何構(gòu)建人的標準基因序列數(shù)據(jù)庫的？

人類標準基因數(shù)據(jù)庫導讀：

佳學基因通過編輯人類全基因測序數(shù)據(jù)，消除測序誤差和個體特意性序列，為人類基因信息的每一個位點規(guī)范數(shù)字化坐標，再將人體組織結(jié)構(gòu)和功能的組成成分的編碼序列按照坐標、及其基因信息的傳遞方式注釋清楚。在進行人的致病基因鑒定基因解碼、用藥指導基因解碼等應用的過程中，先采用商用的高通量測序儀器，獲得沒有定位的基因片段序列。隨后采用生物信息學工具，將片段化的基因序列與標準序列進行比對。將大部分正確的序列進行忽略，只顯示出個體異常序列。再通過對個體異常序列生物學意義、在用藥指導上的作用，致病性分析，從而獲得基因檢測報告。由此而知，佳學基因人類基因組標準序列是基因檢測的參照序列。參照序列的完整性是基因檢測完整性高效的先進步。

人類標準基因組數(shù)庫的數(shù)據(jù)結(jié)構(gòu)

人類標準基因組數(shù)據(jù)庫的基礎數(shù)據(jù)以文本文件的形式存儲，通常含有refgene以區(qū)分其他數(shù)據(jù)庫，同時含有版本號，以區(qū)分不同時期采用的不同形式。佳學基因在開發(fā)升級新的參照基因組時，常常編寫版本轉(zhuǎn)換程序，以確保基因解碼過程的向前兼容。

字段名	數(shù)據(jù)樣例	SQL數(shù)據(jù)庫數(shù)據(jù)形式	數(shù)據(jù)形式	描述說明
bin	2085	smallint(5) unsigned	range	索引字段，以加快大容量數(shù)據(jù)根據(jù)基因信息區(qū)進行索引。
name	NR_046630	varchar(255)	values	基因名稱 (通常是轉(zhuǎn)錄本代碼)
chrom	chr3	varchar(255)	values	標準基因組的染色體坐代碼或基因信息框架編號
strand	+	char(1)	values	+號和 -號被用來表示在所示區(qū)域內(nèi)的基因信息存方方式
txStart	196666747	int(10) unsigned	range	轉(zhuǎn)錄區(qū)域的起始坐標 (反義鏈上的終止坐標)
txEnd	196669405	int(10) unsigned	range	轉(zhuǎn)錄區(qū)域的終止坐標 (反義鏈上的起點坐標）
cdsStart	196669405	int(10) unsigned	range	編碼區(qū)域的起始坐標 (反義鏈上的終點坐標)
cdsEnd	196669405	int(10) unsigned	range	編碼區(qū)域的終點坐標 (反義鏈上的起點坐標)
exonCount	3	int(10) unsigned	range	外顯子數(shù)目
exonStarts	196666747,196667841,196669263,	longblob		外顯子起點坐標 (反義鏈上的終點坐標)
exonEnds	196666995,196668013,196669405,	longblob		外顯子終點坐示 (反應鏈上的起點坐標)
score	0	int(11)	range	評分
name2	NCBP2-AS1	varchar(255)	values	其他基因名稱 (比如GTF采用的基因編碼)
cdsStartStat	unk	enum('none', 'unk', 'incmpl', 'cmpl')	values	Status of CDS start annotation (none, unknown, incomplete, or complete)
cdsEndStat	unk	enum('none', 'unk', 'incmpl', 'cmpl')	values	Status of CDS end annotation (none, unknown, incomplete, or complete)
exonFrames	-1,-1,-1,	longblob		Exon frame {0,1,2}, or -1 if no frame for exon

人類標準基因序列數(shù)據(jù)庫數(shù)據(jù)展示

bin	name	chrom	strand	txStart	txEnd	cdsStart	cdsEnd	exonCount	exonStarts	exonEnds	name2	cdsStartStat	cdsEndStat	exonFrames
2085	NR_046630	chr3	+	196666747	196669405	196669405	196669405	3	196666747,196667841,196669263,	196666995,196668013,196669405,	NCBP2-AS1	unk	unk	-1,-1,-1,
2051	NR_046598	chr3	+	192232810	192234362	192234362	192234362	2	192232810,192234269,	192233297,192234362,	FGF12-AS2	unk	unk	-1,-1,
1312	NR_046514	chr13	+	95364969	95368199	95368199	95368199	2	95364969,95365891,	95365647,95368199,	SOX21-AS1	unk	unk	-1,-1,
585	NR_106918	chr1	-	17368	17436	17436	17436	1	17368,	17436,	MIR6859-1	unk	unk	-1,
585	NR_107062	chr1	-	17368	17436	17436	17436	1	17368,	17436,	MIR6859-2	unk	unk	-1,
585	NR_107063	chr1	-	17368	17436	17436	17436	1	17368,	17436,	MIR6859-3	unk	unk	-1,
585	NR_128720	chr1	-	17368	17436	17436	17436	1	17368,	17436,	MIR6859-4	unk	unk	-1,
585	NR_036051	chr1	+	30365	30503	30503	30503	1	30365,	30503,	MIR1302-2	unk	unk	-1,
585	NR_036266	chr1	+	30365	30503	30503	30503	1	30365,	30503,	MIR1302-9	unk	unk	-1,
585	NR_036267	chr1	+	30365	30503	30503	30503	1	30365,	30503,	MIR1302-10	unk	unk	-1,