【佳學(xué)基因檢測(cè)】基因數(shù)據(jù)庫(kù)進(jìn)行了再次更新,收集基因序列數(shù)據(jù)超過(guò)31億
GenBank 252.0版(2022年10月17日)現(xiàn)已在NCBI FTP網(wǎng)站上發(fā)布。這個(gè)版本有20.35萬(wàn)億個(gè)堿基和31億個(gè)記錄。新發(fā)布的版本有240539282條傳統(tǒng)記錄,其中包含1562963366851個(gè)堿基對(duì)的序列數(shù)據(jù)。還有2167900306條WGS記錄,包含1823196008828個(gè)堿基對(duì)的序列數(shù)據(jù),57402800條批量定向TSA記錄,包含511476787957個(gè)堿基,115123306條批量定向TLS記錄,包括43860512749個(gè)堿基。
發(fā)布之間的增長(zhǎng)
在GenBank發(fā)布251.0和252.0的截止日期之間的63天內(nèi),GenBank的傳統(tǒng)部分增加了70162662354個(gè)堿基對(duì)和623496個(gè)序列記錄。在同一期間,更新了25466項(xiàng)記錄。平均每天增加和/或更新10301條傳統(tǒng)記錄。
在版本251.0和252.0之間,GenBank的WGS部分增加了720151132199個(gè)堿基對(duì)和143800629個(gè)序列記錄。GenBank的TSA成分增加了13975407571個(gè)堿基對(duì)和13823250個(gè)序列記錄。GenBank的TLS成分增加了8232104個(gè)堿基對(duì)和19779個(gè)序列記錄。
此版本的序列數(shù)據(jù)文件總數(shù)增加了216個(gè)。劃分如下:
BCT:37個(gè)新文件,現(xiàn)在總共857個(gè)
CON:刪除了28個(gè)文件,現(xiàn)在總共231個(gè)
ENV:3個(gè)新文件,現(xiàn)在總共75個(gè)
INV:99個(gè)新文件,現(xiàn)在總共965個(gè)
PLN:61個(gè)新文件,現(xiàn)在總共1013個(gè)
VRL:39個(gè)新文件,現(xiàn)在總共813個(gè)
VRT:5個(gè)新文件,現(xiàn)在總共320個(gè)
序列數(shù)據(jù)文件注釋
隨著2022年4月GenBank發(fā)布249.0版本,我們注意到CON部門的36個(gè)序列平面文件數(shù)量異常大。增加的原因是將“外部注釋”錯(cuò)誤地納入了ASN。一組CON記錄中的174個(gè)WGS相關(guān)軟骨支架的1個(gè)版本。
GenBank平面文件表示中這174條記錄的呈現(xiàn)和內(nèi)容沒(méi)有受到此錯(cuò)誤的負(fù)面影響。但是,使用ASN的客戶。1表示GenBank記錄時(shí),其大小會(huì)急劇增加。
在2022年10月的GenBank版本252.0中糾正了這個(gè)問(wèn)題,CON部門文件的總數(shù)減少了。對(duì)于由此造成的任何困難,深表歉意。
其他信息
出于下載目的,請(qǐng)記住,未壓縮的GenBank版本252.0序列數(shù)據(jù)平面文件大約需要2815 GB。ASN.1數(shù)據(jù)文件大約需要1432 GB。
有關(guān)GenBank 252.0版的更多信息,請(qǐng)參閱發(fā)行說(shuō)明以及GenBank和ASN中的README文件。FTP上的ASN.1 (ncbi-asn1) 目錄。
(責(zé)任編輯:佳學(xué)基因)