【佳學(xué)基因檢測(cè)】提高乳腺癌靶向用藥基因檢測(cè)正確性的人工智能分析方法S-PrediXcan
佳學(xué)基因不斷提升腫瘤靶向藥物分析的智能算法
在基因檢測(cè)領(lǐng)域,雖然佳學(xué)基因提供的報(bào)告是針對(duì)每一個(gè)患者的。以乳腺癌為例,佳學(xué)基因的質(zhì)量控制程序中,首先要求獲得的信息要全,測(cè)得的基因序列要多。盡管很多機(jī)構(gòu)為了降低檢測(cè)成本,采用各種患者不理解的方式降低檢測(cè)范圍,佳學(xué)基因始終以推薦更全的基因序列以為乳腺癌者獲得靶向藥物、化療藥物選擇的可能性。靶向藥物基因檢測(cè)的第二個(gè)質(zhì)量控制或者是影響藥物選擇有效性的方法是基因信息的解碼算法。佳學(xué)基因不僅推出了基于結(jié)構(gòu)的基因解碼分析方法,克服了數(shù)據(jù)庫(kù)分析方法的局限性。同時(shí)還從多種角度提升分析的正確性和全面性,人工智能、神經(jīng)網(wǎng)絡(luò)算法是佳學(xué)基因重點(diǎn)投入的另一個(gè)領(lǐng)域。
乳腺癌靶向藥物基因檢測(cè)人工智能云分析的實(shí)現(xiàn)措施
佳學(xué)基因在多次騰訊課堂中展示了乳腺癌靶向藥物治療云計(jì)算人工智能方法Summary PrediXcan, 采用這一分析主法分析了乳腺癌預(yù)測(cè)基因表達(dá)與表型之間關(guān)聯(lián)的Z評(píng)分(Wald統(tǒng)計(jì))的主要分析表達(dá)式。在乳腺癌靶向藥物正確度分析中的輸入變量是用于預(yù)測(cè)給定基因表達(dá)的權(quán)重、預(yù)測(cè)中包含的標(biāo)記的方差和協(xié)方差以及每個(gè)標(biāo)記的GWAS系數(shù)。原則上,公式中的賊后一個(gè)因子可以使計(jì)算更正確。但這一額外參數(shù)無(wú)法在經(jīng)典的GWAS匯總統(tǒng)計(jì)分析結(jié)果中并不存在。這些智能分析因子包括表型方差和樣本量。但佳學(xué)基因開(kāi)發(fā)的這一分析體系從計(jì)算公式中刪除不會(huì)影響結(jié)果的正確性。佳學(xué)基因的多次結(jié)果示例中顯示了S-PrediXcan和PrediXcan智能算法的一致性。
其中wlg是SNP l在預(yù)測(cè)基因g表達(dá)中的權(quán)重;βˆl是SNP l的GWAS回歸系數(shù);se(βˆl)是βˆ的標(biāo)準(zhǔn)誤差,σˆl是SNP l的估計(jì)方差,σˆg是基因g預(yù)測(cè)表達(dá)的估計(jì)方差;假設(shè)劑量和替代等位基因相同。
為了實(shí)現(xiàn)乳腺癌靶向藥物基因檢測(cè)的準(zhǔn)克計(jì)算,佳學(xué)基因需要準(zhǔn)備三個(gè)不同來(lái)源的數(shù)據(jù):研究集(如GWAS研究集)、表達(dá)訓(xùn)練集(如GTEx、DGN)、群體參考集(如訓(xùn)練集或1000基因組)。
研究集是收集與乳腺癌靶向藥物治療相關(guān)聯(lián)的基因型和表型的主要數(shù)據(jù)集?;貧w系數(shù)和標(biāo)準(zhǔn)誤差是根據(jù)研究集中的個(gè)體水平數(shù)據(jù)或多個(gè)GWAS的SNP水平薈萃分析計(jì)算的。訓(xùn)練集是用于預(yù)測(cè)模型(GTEx、DGN、Framingham等)訓(xùn)練的參考轉(zhuǎn)錄組數(shù)據(jù)集,因此權(quán)重wlg是從該集合計(jì)算出來(lái)的。訓(xùn)練集也可用于生成遺傳標(biāo)記的方差和協(xié)方差,這通常與研究集不同。當(dāng)訓(xùn)練集中沒(méi)有個(gè)體水平的數(shù)據(jù)時(shí),乳腺癌靶向用藥云計(jì)算中使用群體參考集,如1000個(gè)基因組數(shù)據(jù)。在通常的運(yùn)算過(guò)程中,佳學(xué)基因優(yōu)化了計(jì)算算法,基因解碼工程師將只需要使用他們的研究集提供GWAS結(jié)果。其余參數(shù)都已經(jīng)預(yù)先計(jì)算的,并在PredictDB中發(fā)布。
(責(zé)任編輯:佳學(xué)基因)