【佳學基因檢測】非小細胞肺癌轉(zhuǎn)移風險基因檢測模型的建立與驗證
本文介紹了用于建立非小細胞肺癌轉(zhuǎn)移風險基因檢測模型的方法及其臨床驗證實驗結(jié)果。
數(shù)據(jù)源
從 TCGA 數(shù)據(jù)庫 ( https://portal.gdc.cancer.gov/ ) 下載轉(zhuǎn)錄組和臨床數(shù)據(jù),包括轉(zhuǎn)移樣本 (n = 31) 和非轉(zhuǎn)移樣本 (n = 733),并用作訓練放。來自 GEO 數(shù)據(jù)集的 117 個 LUAD 樣本,GEO 數(shù)據(jù)集的登錄號為GSE13213,并用作外部驗證集。DEG的識別
R統(tǒng)計軟件中的'Limma'包用于識別轉(zhuǎn)移組和非轉(zhuǎn)移組之間的DEG,將adj p值<0.05設(shè)置為篩選閾值。DEG 的熱圖集群和火山圖是通過 R 軟件使用“pheatmap”和“ggplots”包創(chuàng)建的。基因本體論 (GO) 和京都基因和基因組百科全書 (KEGG) 分析
為了探索轉(zhuǎn)移相關(guān)基因特征的潛在功能,通過“clusterProfiler”包進行了GO分析和KEGG富集分析。發(fā)現(xiàn) P.adjust < 0.05 具有統(tǒng)計學意義。單變量 cox 回歸和 lasso 回歸分析
我們首先使用 R 包生存 coxph 函數(shù)對 DEG 進行單變量 Cox 回歸分析,以篩選與生存顯著相關(guān)的轉(zhuǎn)移相關(guān)基因。選擇p < 0.05 作為過濾的閾值。此外,將篩選出的與預(yù)后相關(guān)的轉(zhuǎn)移相關(guān)基因納入Lasso回歸模型,對上述基因進行懲罰,以防止模型的過擬合效應(yīng)。我們進行了 LASSO Cox 回歸分析并確定了 12 個特征基因 。賊后通過多元COX回歸分析成功構(gòu)建了預(yù)后模型。訓練組和驗證組的患者分別根據(jù)訓練組風險評分的中值分為低風險組和高風險組。Kaplan-Meier 評估了兩組之間的生存差異。 同時,對訓練組進行單變量和多變量預(yù)后分析(p < 0.05),以確定從模型中獲得的riskScore是否可以作為獨立的預(yù)后因素。列線圖的繪制和驗證
建立具有獨立危險因素如臨床信息和風險評分的列線圖來預(yù)測非小細胞肺癌患者1年、3年和5年總生存率的可能性。通過校準曲線評估列線圖的功效。評估免疫評分、基質(zhì)評分和腫瘤純度免疫浸潤
ESTIMATE 包用于計算每個 PAAD 樣本的免疫評分(代表免疫細胞浸潤水平)和基質(zhì)評分(代表基質(zhì)數(shù)量)。ESTIMATE 評分定義為免疫評分和基質(zhì)評分的總和。然后通過Wilcoxon檢驗比較高危組和低危組間質(zhì)評分、免疫評分、ESTIMATE評分、腫瘤純度評分的差異。p值 < 0.05 被認為是顯著的 。為了預(yù)測免疫檢查點阻斷治療的效果,我們還探索了各組免疫檢查點基因的表達。估計此預(yù)后風險模型與臨床特征和腫瘤突變負荷 (腫瘤突變負荷(TMB)) 之間的關(guān)系
我們評估了從 TCGA 獲得的風險評分和臨床特征之間的關(guān)系,如下:M(M0 和 M1)、N(N0 和 N1-3)、T(T1-2 和 T3-4)和分期(I- II 和 III-IV)。非小細胞肺癌患者的腫瘤突變數(shù)據(jù)來自TCGA數(shù)據(jù)庫,并計算每個非小細胞肺癌患者的腫瘤突變負荷(腫瘤突變負荷(TMB))。GSEA的分析
R包“limma”用于分析高危組和低危組之間的差異表達,所有基因按倍數(shù)變化值排序。h.all.v7.4.symbols.gmt 數(shù)據(jù)集是從 MSigDB 下載的,通過 R 包“clusterProfiler”進行基因集富集分析以闡明重要的注釋途徑。結(jié)果
DEG的識別
TCGA 數(shù)據(jù)集中的 764 個 非小細胞肺癌樣本分為兩組:非轉(zhuǎn)移性(31 個樣本)和轉(zhuǎn)移性(733 個樣本)。TCGA 數(shù)據(jù)集產(chǎn)生了2058 個 DEG(圖 1A-B),其中 1499 個被下調(diào),559 個被上調(diào)。
圖1:非小細胞肺癌非轉(zhuǎn)移組和轉(zhuǎn)移組差異表達基因的鑒定。A顯示差異表達基因的火山圖。B 非小細胞肺癌中差異表達基因的熱圖
功能富集分析
DEGs的生物學功能和途徑可以通過基因富集分析來研究。表皮發(fā)育、皮膚發(fā)育、表皮細胞分化、角質(zhì)形成細胞分化和角質(zhì)化是GO 中豐富的生物過程(前 5 位)。前突觸、突觸膜、谷氨酸能突觸和角質(zhì)化細胞分化及角質(zhì)化是通過 GO分析得到的主要成分(前 5 位)。肽酶調(diào)節(jié)劑活性、內(nèi)肽酶調(diào)節(jié)劑活性、內(nèi)肽酶抑制劑活性、肽酶抑制劑活性和絲氨酸型內(nèi)肽酶抑制劑活性是GO的前五種分子功能(圖 2A)。類似地,神經(jīng)活性配體-受體相互作用、化學致癌-受體激活、雌激素信號通路、金黃色葡萄球菌感染和藥物代謝-細胞色素P450是前5個顯著富集的通路(圖2B)。
圖 2:GO 和 KEGG 分析的代表性結(jié)果。A 6個篩選基因的分子功能。B篩選基因的潛在生物學途徑。數(shù)據(jù)來自 KEGG 網(wǎng)站(KEGG:京都基因和基因組百科全書)
基于6個預(yù)后轉(zhuǎn)移相關(guān)基因的風險評分模型的構(gòu)建與驗證
對 TCGA 訓練組的 DEG 進行單變量 Cox 回歸分析。單因素回歸分析結(jié)果顯示,轉(zhuǎn)移相關(guān)基因與非小細胞肺癌患者預(yù)后顯著相關(guān)(p < 0.05)(圖 3A)。對于這些具有預(yù)后價值的基因,采用LASSO回歸分析來避免過度擬合預(yù)后模型。LASSO 回歸分析顯示 12 個基因與 總生存率 有顯著關(guān)系(圖 3B 和 C)。賊后,肺癌轉(zhuǎn)移風險評估基因檢測包構(gòu)建團隊對選擇的 12 個基因進行了多元回歸分析。通過多元回歸分析,C1QL2、FLNC、LUZP2、PRSS3、SPIC 和 GRAMD1B 被確定為 TCGA 訓練組中總生存率的風險變量(圖 3D)。風險評分計算為 (− 0.265 × C1QL2) + (0.227 × FLNC) + (− 0.625 × LUZP2) + (0.095 × PRSS3) + (0.193 × SPIC) + (0.447 × GRAMD1B)。之后,根據(jù)中位風險評分將 TCGA 患者分為高風險組和低風險組。根據(jù) Kaplan-Meier 曲線,具有高風險評分的患者在訓練集中的存活率較低 ( p = 0.0001)(圖 3E)。同樣,從GSE13213中選擇 117 名個體作為驗證隊列,并根據(jù)中位風險評分分為高風險組和低風險組,風險評分計算公式與 TCGA 隊列相同。生存曲線顯示兩組之間 存在顯著差異(p <0.05)(圖 3F)。分析RiskScore與臨床特征的關(guān)系,發(fā)現(xiàn)基于六基因特征構(gòu)建的風險評分根據(jù)年齡、M0分期、N分期、I-II期、T1-2分級區(qū)分為高低風險組。因此,這一發(fā)現(xiàn)表明肺癌轉(zhuǎn)移風險基因評估模型對臨床特征具有很強的預(yù)測能力。
圖 3:在 TCGA 隊列中構(gòu)建風險特征。差異表達基因的單變量 Cox 分析。(B) 在 LASSO 回歸中調(diào)整參數(shù)選擇的交叉驗證。C差異表達基因的 LASSO 回歸。D差異表達基因的多變量 Cox 分析。TCGA中非小細胞肺癌患者風險預(yù)后模型的E - F K-M生存分析
RiskScore對不同臨床特征的表達及列線圖的構(gòu)建
采用多變量 Cox 方法在 TCGA 數(shù)據(jù)集中尋找 非小細胞肺癌 患者的三個獨立預(yù)后指標(年齡、分期和風險評分)(圖 4A)。之后,根據(jù)年齡、分期和風險評分生成 1 年、3 年和 5 年生存率的列線圖,以客觀估計每位非小細胞肺癌患者的生存可能性(圖 4B)。此外,繪制了 1 年、3 年和 5 年生存率的校準曲線以測試列線圖的正確性,結(jié)果表明列線圖預(yù)測的和實際的生存概率大體上是一致的(圖 4C-E)。根據(jù)從列線圖計算的中位風險評分,將 TCGA 隊列中的患者分為高風險組和低風險組。圖 4F 表示高危組患者的 總生存率 顯著短于低危組(p < 0.001)。
圖 4:基于風險評分和臨床特征的預(yù)后模型的構(gòu)建和評估?;陲L險評分和臨床特征的多變量 COX 回歸分析的森林圖。B列線圖通過四種臨床病理學特征預(yù)測 非小細胞肺癌 患者的進展風險。C – E校準曲線用于評估列線圖的一年、三年和五年進度預(yù)測的正確性?;陲L險評分和臨床特征的預(yù)后模型的F K-M 曲線
肺癌轉(zhuǎn)移風險基因檢測預(yù)后評估模型與患者臨床病理特征的相關(guān)性
肺癌轉(zhuǎn)移風險基因檢測評估模型首先查看風險評分和臨床變量之間的關(guān)聯(lián)。結(jié)果表明,N階段之間的風險評級沒有顯著差異(圖 5A)。肺癌轉(zhuǎn)移風險基因檢測評估模型 研究了不同非小細胞肺癌組之間風險評分的差異。按分期分層的亞組分析顯示,IV 期非小細胞肺癌患者的風險評分顯著高于 I 期非小細胞肺癌患者(p = 0.0031)。(圖 5B)。此外,與 M0 非小細胞肺癌 患者相比,M1 非小細胞肺癌 患者的風險評分顯著更高(p = 0.043)。此外,T3 非小細胞肺癌 患者的風險評分顯著高于 T1 非小細胞肺癌 患者 ( p = 0.0052)(圖 5C-D)。
圖 5:預(yù)后風險模型與臨床病理特征(分期,TNM)之間的相關(guān)性A – D
非小細胞肺癌患者免疫微環(huán)境與轉(zhuǎn)移風險基因檢測評分模型的關(guān)系分析
使用 ESTIMATE 算法,肺癌轉(zhuǎn)移風險基因檢測評估專項小組采用 TCGA 數(shù)據(jù)集估計了 非小細胞肺癌的基質(zhì)細胞得分、免疫評分和腫瘤純度。肺癌轉(zhuǎn)移風險基因檢測評估專項小組的數(shù)據(jù)顯示,高危組的免疫評分和基質(zhì)評分顯著高于低危組(圖 6A),高危組的腫瘤純度評分顯著低于低危組。為進一步探索個體免疫微環(huán)境,開展個體化治療,對高危組和低危組的免疫浸潤和免疫檢查點基因進行了進一步研究(圖 6B-C)。與高風險組相比,低風險組的巨噬細胞、巨噬細胞 M1、MEP、單核細胞、pDC 和 Th2 細胞的標志物顯著降低。另一方面,低風險組的 Th1 細胞、MEP 和 HSC 標志物表達增加。此外,在高危組和低危組中發(fā)現(xiàn)了免疫檢查點基因變異的基因檢測結(jié)果。TNFSF15 在低風險組中的表達水平高于高風險組。與低危組相比,高危組表現(xiàn)出更高的 ADORA2A、TNFSF14、CD28、ICOS、TIGIF、TNFRSF9、CD276、TNFSF9、TNFRSF8、PDCD1、CTLA4、TNFSF4、CD86、NRP1、TNFRSF4、CD70、 LAIR1、C10orf54、HAVCR2 和 CD200。
圖 6:非小細胞肺癌患者免疫微環(huán)境與風險評分模型關(guān)系分析。對高風險和低風險群體的估計分析。B免疫浸潤細胞的分析。C高風險和低風險人群免疫檢查點的分子分析。D高危組和低危組的 腫瘤突變負荷(TMB) 評分
肺癌腫瘤轉(zhuǎn)移風險評估小組還估計了每個樣本的 腫瘤突變負荷(TMB),發(fā)現(xiàn)在 TCGA 數(shù)據(jù)集中,高風險組的 腫瘤突變負荷(TMB) 顯著更高(p = 0.0056)。(圖 6D)。GSEA分析
進行GSEA分析以進一步探索低風險和高風險人群之間的差異生物學機制。我們發(fā)現(xiàn)了信號通路(圖 7),包括同種異體移植排斥、凝血、補體、上皮間質(zhì)轉(zhuǎn)化、G2M 檢查點、IL6-JAK-STAT3 信號傳導、炎癥反應(yīng)、干擾素 γ 反應(yīng)、KRAS 信號傳導、通過 NFkB 的 TNFA 信號傳導在高危組中顯著富集。
圖 7:基因集富集分析。高風險組和低風險組之間基因組的差異
本文將非小細胞肺癌樣本按照M分期分為轉(zhuǎn)移組和非轉(zhuǎn)移組。TCGA被用作訓練隊列并構(gòu)建預(yù)后模型,而GEO數(shù)據(jù)庫被用作驗證隊列以驗證預(yù)后模型評估的有效性。首先,我們分析了 TCGA 入組的 非小細胞肺癌 患者的基因表達數(shù)據(jù)和臨床數(shù)據(jù),識別了 2058 個與轉(zhuǎn)移相關(guān)的 DEG。使用單變量、LASSO 和多變量 Cox 回歸分析,6 種 mRNA(C1QL2 、FLNC 、LUZP2、PRSS3、SPIC、GRAMD1B) 已被發(fā)現(xiàn)是 非小細胞肺癌 的獨立預(yù)后預(yù)測因子。其次,生存分析被用來檢查預(yù)后模型的可用性。所有 6 種 mRNA 的表達模式都與 總生存率 相關(guān),這意味著隨著這些 mRNA 表達的產(chǎn)生,患者將有不同的生存時間。第三,對訓練組構(gòu)建的模型進行了外部驗證,增加了結(jié)果的高效性。
通過對轉(zhuǎn)移相關(guān)基因的通路富集分析,我們發(fā)現(xiàn)許多GO通路被富集,如表皮發(fā)育、皮膚發(fā)育、表皮細胞分化、角質(zhì)形成細胞分化等。其中許多已被證實與腫瘤轉(zhuǎn)移有關(guān)。密切相關(guān),如Sabounsji的研究指出,非小細胞肺癌的轉(zhuǎn)移與表皮細胞分化密切相關(guān)。Li 的研究中還指出了角質(zhì)形成細胞分化與轉(zhuǎn)移性黑色素瘤之間的相關(guān)性。模型中的 mRNA 已在其他文章中報道,它們也與不同類型的癌癥有關(guān)。Sigin 等人的一項研究。發(fā)現(xiàn)在 Luminal B 型乳腺癌中的甲基化水平C1QL2與 Luminal B 乳腺癌患者的新輔助化療密切相關(guān) 。細絲蛋白C ( FLNC ) 是一種大型肌動蛋白交聯(lián)蛋白,存在于多種細胞中。根據(jù)以往的文獻,FLNC的暫時表達或沉默可以改變癌細胞的增殖和集落形成,而內(nèi)源性FLNC沉默可以加速癌細胞的運動和侵襲。LUZP2(亮氨酸拉鏈蛋白 2 基因),位于 Chr 11p13-11p14 并編碼亮氨酸拉鏈蛋白,已被證明在 Wilms 的腫瘤患者中被刪除。Wilms 瘤、生殖器異常、無虹膜和智力低下是一種罕見的先天性異常綜合征,其特征是 Wilms 瘤、生殖器畸形、無虹膜和智力低下。此外,Zhao 等人發(fā)現(xiàn),相對于正常前列腺組織, LUZP2 mRNA 表達在未使用激素的前列腺癌 (PC) 中升高,但在從未使用激素的 PC 到去勢抵抗性 PC (CRPC) 的整個進展過程中下調(diào) 。PRSS3(絲氨酸蛋白酶 3) 是絲氨酸蛋白酶家族的成員,在胰腺腺泡細胞中產(chǎn)生并釋放到小腸中以幫助消化。根據(jù) Wang 的研究結(jié)果,PRSS3表達增加可能會增強胃癌轉(zhuǎn)移,并作為患者預(yù)后不良的獨立分子指標 。SpiC是Spi亞型中的一員,SpiC在骨髓分化中具有重要作用,但目前尚無關(guān)于SpiC在腫瘤中作用的報道。GRAMD1B(含 GRAM 結(jié)構(gòu)域的蛋白 1B)被確定為信號級聯(lián)的推定成分 17,與人類惡性腫瘤有關(guān) 。具體而言,據(jù)報道它在卵巢癌患者的化學抗性中發(fā)揮作用,例如GRAMD1B抑制導致抗腫瘤作用 。Khanna 的研究證明GRAMD1B通過 JAK/STAT 和 Akt 信號傳導調(diào)節(jié)乳腺癌細胞中的細胞遷移 。這些結(jié)果代表了與本研究相似的結(jié)論。
腫瘤轉(zhuǎn)移是由癌細胞與腫瘤微環(huán)境的眾多基質(zhì)細胞成分之間的相互作用以及惡性細胞內(nèi)在變化的積累引發(fā)的 。來自宿主的免疫細胞(如腫瘤相關(guān)巨噬細胞、髓源性抑制細胞和調(diào)節(jié)性 T 細胞)對腫瘤組織的炎癥和浸潤已被證明可促進腫瘤發(fā)展以及侵襲和轉(zhuǎn)移 。我們的數(shù)據(jù)顯示,高危組的免疫評分和基質(zhì)評分顯著高于低危組。如巨噬細胞、巨噬細胞M1、單核細胞、pDC和Th2細胞的免疫浸潤明顯高于低危組。這表明腫瘤轉(zhuǎn)移相關(guān)基因也在調(diào)節(jié)腫瘤免疫中發(fā)揮作用。為了更詳細地解釋 非小細胞肺癌 中的免疫細胞浸潤,使用 ssGSEA 發(fā)現(xiàn)低風險組的 iDC、MSC、Th2 細胞、內(nèi)皮細胞、單核細胞的標志物表達較高。這些結(jié)果與以往研究的結(jié)論一致,表明我們的預(yù)后模型不僅可以對非小細胞肺癌患者的預(yù)后有很好的預(yù)測作用。并且可以在一定程度上對患者的免疫變化做出反應(yīng)。這對于 非小細胞肺癌 患者的免疫治療將非常重要。例如,在未來,可以通過我們研究中建立的預(yù)后模型來預(yù)測患者對免疫治療的反應(yīng)。
我們希望從遺傳學上了解我們的模型起作用的可能機制,進行 GSEA 以分別對高風險和低風險組進行富集分析,可以發(fā)現(xiàn)包括同種異體移植排斥、凝血、補體、上皮間質(zhì)轉(zhuǎn)化、G2M 檢查點、IL6 JAK STAT3 信號傳導、炎癥反應(yīng)、干擾素 γ 反應(yīng)、KRAS 信號傳導、通過 NFkB 的 TNFA 信號傳導在高危組中顯著富集。這些途徑都在之前的研究中顯示與腫瘤轉(zhuǎn)移直接或間接相關(guān)。例如,EMT 是一種進化上保守的發(fā)育程序,它與致癌作用有關(guān),并通過增加移動性、侵襲性和對凋亡刺激的抗性賦予癌細胞轉(zhuǎn)移特性。此外。細胞因子白細胞介素 6 (IL6) 及其下游效應(yīng)器 STAT3 形成了乳腺癌中的主要致癌途徑,據(jù)推測該途徑在功能上與雌激素受體 (ER) 相關(guān)。Siersbak 等人。發(fā)現(xiàn)IL6 / STAT3信號促進ER +乳腺癌的轉(zhuǎn)移,而不是ER陽性。一部分 ER 增強子被 STAT3 劫持以產(chǎn)生獨特的轉(zhuǎn)錄途徑 。據(jù)報道,我們已經(jīng)確定的一些潛在途徑與腫瘤轉(zhuǎn)移有關(guān),這驗證了我們的結(jié)果,并且我們的結(jié)果發(fā)現(xiàn)了尚未探索到轉(zhuǎn)移的潛在途徑。這為未來研究腫瘤轉(zhuǎn)移基因提供了新的視角。
賊后,我們通過一系列生物信息分析開發(fā)了用于預(yù)測 非小細胞肺癌 轉(zhuǎn)移預(yù)后的模型和生物標志物。根據(jù)我們在訓練組和測試組中都證實的研究結(jié)果,低風險組患者的總生存率高于高風險組患者。我們的研究為非小細胞肺癌的診斷和治療開辟了一條新途徑。然而,這項研究仍然存在一些局限性。首先,TCGA中的數(shù)據(jù)可能包含不同程度的錯誤,并且包含的??數(shù)據(jù)量是有限的,這可能會導致不正確。其次,缺乏體內(nèi)和體外研究會導致證據(jù)不足。賊后,我們的研究還存在一個缺陷,即 TCGA 數(shù)據(jù)庫無法提供配對樣本。所以,我們無法縱向比較同一患者不同轉(zhuǎn)移時間的情況,我們還將在未來的研究中納入更多的隊列以彌補這一不足。還值得一提的是,我們的研究并非基于所有臨床特征,包括年齡、性別等,而是僅由一些可訪問的臨床特征構(gòu)建的預(yù)后模型。比如T和N分期等等。未來的研究需要結(jié)合更多的臨床特征以實現(xiàn)更好的模型性能。因此,需要進一步的研究和試驗來驗證模型和生物標志物,以確保其穩(wěn)健性。但是一個僅由一些可訪問的臨床特征構(gòu)建的預(yù)后模型。比如T和N分期等等。未來的研究需要結(jié)合更多的臨床特征以實現(xiàn)更好的模型性能。因此,需要進一步的研究和試驗來驗證模型和生物標志物,以確保其穩(wěn)健性。但是一個僅由一些可訪問的臨床特征構(gòu)建的預(yù)后模型。比如T和N分期等等。未來的研究需要結(jié)合更多的臨床特征以實現(xiàn)更好的模型性能。因此,需要進一步的研究和試驗來驗證模型和生物標志物,以確保其穩(wěn)健性。
(責任編輯:佳學基因)