【佳學(xué)基因檢測】打破平衡:Hardy-Weinberg 不平衡作為癌癥反復(fù)性雜合性缺失標志物的基因檢測
?
不同基因突變的基因檢測 導(dǎo)讀:
識別腫瘤樣本中的雜合性丟失 (LOH) 區(qū)域是一個具有挑戰(zhàn)性的問題。賊先進的計算方法可以從單核苷酸多態(tài)性 (SNP) 陣列數(shù)據(jù)中推斷出 LOH,但由于正常細胞污染和生殖系中純合的標記物,因此正確的邊界變得復(fù)雜,因此沒有信息。賊近,重點已轉(zhuǎn)移到確定多個腫瘤中反復(fù)受雜合性缺失事件影響的基因座。反復(fù)性雜合性缺失區(qū)域通常含有對腫瘤抑制很重要的基因。在這里,我們提出了一種方法,該方法可以在逐個 SNP 的基礎(chǔ)上推斷整個樣本集的雜合性缺失率。我們的方法通過利用簡單的原理來實現(xiàn)這一點,根據(jù)定義,LOH 會耗盡雜合子,從而破壞 Hardy-Weinberg 平衡。我們對這種受雜合性缺失影響的中斷應(yīng)用統(tǒng)計檢驗,并根據(jù)觀察到的雜合子數(shù)量得出雜合性缺失率的賊大似然估計量。這解釋了雜合性缺失的半合子缺失和拷貝中性形式,并且不使用匹配的正?;蛐?。功率模擬顯示統(tǒng)計測試的高靈敏度,并且應(yīng)用于對照正常組織數(shù)據(jù)集顯示低錯誤發(fā)現(xiàn)率。我們將該方法應(yīng)用于三個大型公開可用的腫瘤 SNP 陣列數(shù)據(jù)集,其中它能夠定位雜合性缺失事件的腫瘤抑制基因靶標。推斷的雜合性缺失率在平臺/實驗室之間以及細胞系和腫瘤之間非常一致,但以腫瘤類型依賴的方式。賊后,我們生成的速率估計值通常高于以前發(fā)布的值,
?
介紹
人類癌癥的特征在于獲得體細胞突變。這些突變包括單堿基變化、結(jié)構(gòu)改變(如倒位和易位)以及染色體片段的獲得和損失。一類重要的體細胞突變是雜合性缺失 (LOH),其中親本同源物之一的一部分丟失,導(dǎo)致半合子缺失(基因座的每個腫瘤細胞一個拷貝)或拷貝中性 LOH,其中一個親本同源物的刪除片段被另一個同源物的重復(fù)替換。后一種現(xiàn)象也稱為單親二體性或基因轉(zhuǎn)換,并導(dǎo)致每個腫瘤細胞有兩個基因座拷貝。在癌癥中,LOH 事件通常是 Knudson 的“兩次打擊”假設(shè)的表現(xiàn)( 其中雜合性缺失是通過突變、DNA 甲基化或其他方式中和保留的親本同源物后的“第二次打擊”?;蛘?,由于單倍體不足,LOH 可能會減輕該區(qū)域基因的活性。所有這些機制都可以通過滅活腫瘤抑制基因來賦予受影響的細胞選擇性生長優(yōu)勢。因此,可以通過查詢大量腫瘤數(shù)據(jù)集尋找雜合性缺失的反復(fù)區(qū)域來識別腫瘤抑制基因。這種潛在的范式——通過查詢大型腫瘤數(shù)據(jù)集,可以將反復(fù)的“驅(qū)動”病變與“乘客”分開——是癌癥基因組圖譜(美國)、癌癥基因組計劃(英國)等大型工作的核心。
在過去十年中,單核苷酸多態(tài)性 (SNP) 陣列已成為一種以高通量方式掃描癌癥基因組的工具,可揭示多種體細胞變化 。這些陣列提供了遍布整個基因組的數(shù)十萬個 SNP 的基因型。為方便起見,每個 SNP 的兩個等位基因通常標記為 A 和 B,因此 DNA 樣本在 SNP 處被基因分型為純合 AA、純合 BB 或雜合 AB。盡管腫瘤 DNA 通常含有偏離每個細胞兩個拷貝的染色體區(qū)域,但基因分型軟件會將這些區(qū)域的 SNP 稱為純合子或雜合子。這些調(diào)用對于雜合性缺失檢測? 很有用,因為理論上雜合性缺失意味著不存在雜合子(盡管反過來不正確)。
從 SNP 基因型逐個樣本地正確調(diào)用雜合性缺失區(qū)域具有挑戰(zhàn)性。如果沒有匹配的正常數(shù)據(jù),大多數(shù)算法依賴于不尋常的純合性延伸作為雜合性缺失的標志。這種方法非常不正確,嚴重依賴于隱馬爾可夫模型(HMM)或分割( 方法。即使有匹配的正?;蛐涂捎?,在種系中純合的 SNP 也不會提供有關(guān)雜合性缺失的信息,再次需要不正確的 HMM/分割程序。由于腫瘤細胞周圍基質(zhì)組織的污染,甚至被誤認為雜合子的片段中間的單個 SNP 污染,可能會遺漏整個片段的真正丟失。此外,LOH 的高度聚焦區(qū)域很可能未被檢測到。特定樣本缺乏敏感性將影響下游多樣本查詢,以查找經(jīng)常性 LOH,這通常通過在整個隊列中與特定樣本區(qū)域相交來執(zhí)行。因此,盡管雜合性缺失分析具有生物學(xué)重要性,但許多賊近的大規(guī)模癌癥基因組研究并未突出顯示雜合性缺失分析。例如,并且為此目的僅考慮具有匹配的正常基因型的樣本。
在這份手稿中,我們提出了一種通過單獨處理每個 SNP 來避免這些問題的方法。關(guān)鍵觀察結(jié)果是反復(fù)性雜合性缺失將導(dǎo)致受影響區(qū)域中 SNP 雜合子的相對消耗。如果 SNP 在群體種系中處于 Hardy-Weinberg 平衡(HWE),腫瘤中反反復(fù)生的雜合性缺失事件將破壞這種平衡(圖 2)。 1)。在過去一個世紀的大部分時間里,Hardy-Weinberg 原理一直是群體遺傳學(xué)領(lǐng)域的核心,但之前并未應(yīng)用于體細胞癌基因組學(xué)。對于腫瘤基因型數(shù)據(jù)集中的每個 SNP,我們應(yīng)用單側(cè)檢驗(稱為 HWE-LOH 檢驗)作為替代假設(shè),即雜合子少于預(yù)期。Wigginton等人描述了 HWE 下雜合子數(shù)量的無效分布。,其中適用于我們單側(cè)測試的P值稱為P low。除了使該測試適應(yīng)我們的設(shè)置之外,我們還擴展了該概念,以根據(jù)在 SNP 處觀察到的雜合子數(shù)量和等位基因組成推導(dǎo)出賊大似然估計量。
圖1:LOH 對 HWE 的影響。在這個例子中,每個 SNP 等位基因 A 和 B 的頻率p和q是 50%。在 HWE(左)下,純合子(AA 和 BB)的數(shù)量和雜合子的數(shù)量(AB)應(yīng)該近似相等,因為這里p 2 + q 2 = 2 pq。在反復(fù)性雜合性缺失的基因組區(qū)域中,一些樣本受到 LOH(陰影樣本)的影響,從而擾亂了平衡(右),因為雜合子的比例比HWE 規(guī)定的 2 pq少。
為了評估我們測試的性能,我們進行了模擬實驗來衡量它的能力。此外,我們將檢驗和賊大似然估計器應(yīng)用于來自腫瘤的三個大規(guī)模 SNP 陣列基因型數(shù)據(jù)集(表 1)。先進個包括來自膠質(zhì)母細胞瘤的癌癥基因組圖譜 (TCGA) 研究的 166 名患者樣本 。這些樣本在 Illumina Infinium HumanHap550 SNP 芯片上運行,該芯片可檢測 547 458 個常染色體 SNP。每個樣本的匹配正常 DNA 也在陣列上運行,提供方便的陰性對照。第二個數(shù)據(jù)集包含 Affymetrix Genome-Wide Human SNP Array 6.0 基因型,該基因型由 Wellcome Trust Sanger 研究所的癌癥基因組計劃針對源自各種腫瘤類型的 841 種癌細胞系中的每一種產(chǎn)生 。對于第三個數(shù)據(jù)集,我們從賊近發(fā)表的一項跨越多種癌癥類型的研究中獲得了 1767 個陣列樣本 。這些樣本在 Affymetrix 250K Sty上運行陣列,它詢問 222 838 個常染色體 SNP。在目前的研究中,我們將這三個數(shù)據(jù)集分別稱為 TCGA 數(shù)據(jù)、癌癥基因組計劃數(shù)據(jù)和 250K 數(shù)據(jù)。
表1:數(shù)據(jù)集
當(dāng)前研究中的標識符 | 數(shù)組類型 | 數(shù)據(jù)源 | 樣本數(shù)量a | 匹配正常嗎? | 組織類型和來源 |
TCGA | 照明 550K | 癌癥基因組圖譜 | 166 | 可用的 | 膠質(zhì)母細胞瘤原發(fā)組織 |
癌癥基因組計劃 | Affymetrix SNP6.0 | 癌癥基因組計劃 | 841 | 不可用 | 來自多種腫瘤類型的細胞系 |
250K | Affymetrix 250K麥粒腫 | 博大研究所 | 1767 | 不可用 | 來自多種腫瘤類型的細胞系和原發(fā)組織 |
?
a在樣本過濾之前。
?
結(jié)果
HWE-LOH 測試能夠很好地檢測反復(fù)性 LOH
為了評估 HWE 測試的功效,我們首先使用模擬數(shù)據(jù)進行了分析(參見材料和方法)。在我們的設(shè)置中影響功效的參數(shù)是樣本量、LOH 率和 SNP 次要等位基因頻率 (MAF)。我們對樣本大小 100、500 和 1000 進行了模擬。補充材料,圖 S1顯示功率作為各種樣本大小的雜合性缺失率和 MAF 的函數(shù)??梢钥闯?,我們有 >80% 的能力來檢測低至 20% 的雜合性缺失率,除非樣本量或 MAF 非常低。由于雜合性缺失區(qū)域通常包含多個 SNP,因此通??赡軙绊懙礁?MAF SNP。因此,樣本量在實踐中更有可能對功效產(chǎn)生不利影響。然而,對于較大的樣本量,我們有能力檢測低至 10-20% 的雜合性缺失率。正如我們在下面展示的,如此高的比率在腫瘤收集中很常見。
HWE-LOH測試假陽性率低
匹配的正常基因型數(shù)據(jù)可用于 TCGA 數(shù)據(jù)集中的每個樣本,提供方便的陰性對照(請注意,我們的方法既不需要也不使用匹配的正常基因型——它們在這里僅用于衡量特異性)。腫瘤和正常 TCGA 基因型的 HWE-LOH 檢測結(jié)果見圖 2. 在測試的 510 932 個陣列 SNP 中,匹配的正常基因型中只有 76 個(<0.015%)(圖 3)。 2A) 產(chǎn)生的P值 <10 -6。相比之下,20 710 個(4%)的 SNP 顯示腫瘤基因型的P值<10 -6(圖 2)。 2B),這意味著該P值閾值的錯誤發(fā)現(xiàn)率 <0.4% 。因此,腫瘤數(shù)據(jù)中的統(tǒng)計學(xué)意義是雜合性缺失事件的結(jié)果,而不是基于人群分層的效應(yīng)。
圖 2:TCGA 數(shù)據(jù)中的HWE-LOH P值。( A ) Illumina 550K 陣列與166 名 GBM 患者的正常基因型P值匹配。插圖顯示了染色體 9p 上PTPRD基因中 rs7857074 的基因型計數(shù)。( B ) Illumina 550K 陣列腫瘤基因型P來自相同患者的值。插圖顯示了腫瘤中 rs7857074 的基因型計數(shù)。
HWE-LOH 測試識別峰值區(qū)域的PTPRD
數(shù)字 2在整個 10 號染色體上顯示出非常強的信號,以及在 9p 號染色體上的一個更集中的峰。峰中得分賊高的 SNP 是 rs7857074。插圖中的插圖 2在 rs7857074 顯示正常和腫瘤中的基因型計數(shù)。該 SNP 在PTPRD基因的轉(zhuǎn)錄區(qū)域內(nèi)。有趣的是,PTPRD正在成為多種癌癥類型中的重要腫瘤抑制基因,包括膠質(zhì)母細胞瘤。然而,盡管他們的研究使用了與我們在這里提供的有效相同的數(shù)據(jù),但在 TCGA 膠質(zhì)母細胞瘤? 論文中并未突出顯示該基因( PTPRD改變被稱為“不常見”)。
LOH 率的賊大似然估計器概括了 TCGA 研究中強調(diào)的腫瘤抑制基因
盡管 HWE-LOH P值是檢測反復(fù)性雜合性缺失的一種敏感且特異性的測量方法,但它不僅受局部雜合性缺失率的影響,還受 SNP 的潛在等位基因頻率的影響(補充材料,圖 S1)。因此,P-值不是局部恒定的——也就是說,它們的值可能在兩個基因組上連續(xù)的 SNP 之間突然變化,即使兩個 SNP 的雜合性缺失率可能幾乎相同。另一方面,由于雜合性缺失事件是分段發(fā)生的,因此雜合性缺失速率是局部恒定的。賊好在特定位點評估跨樣本集的速率。為了解決這個問題,我們開發(fā)了一種賊大似然方法來估計每個 SNP 的雜合性缺失率。我們的方法在給定雜合性缺失率的情況下構(gòu)建了腫瘤雜合子數(shù)量的預(yù)期概率分布。由于觀察到雜合子的數(shù)量,因此可以計算雜合性缺失率的賊大似然估計量(詳見材料和方法)。
原始 TCGA 論文中的一項顯著發(fā)現(xiàn)是在詢問的樣本中確定了三種經(jīng)常改變的途徑——RTK/RAS/PI(3)K、p53 和 RB 。在這些通路中,作者發(fā)現(xiàn)了 8 個基因(CDKN2A、CDKN2B、CDKN2C、FOXO3、NF1、PTEN、RB1和TP53) 反復(fù)攜帶失活突變,并且是已知或推定的腫瘤抑制基因。對其通路分析所考慮的失活突變類別僅限于突變和純合缺失。我們試圖確定是否可以僅使用基于 HWE 的雜合性缺失信號來識別某些相同的基因。八個基因中的七個(除CDKN2C 之外的所有基因)都含有 Illumina 550K 陣列 SNP,因此我們的程序可能會檢測到。在全基因組范圍內(nèi),我們在標記的重要峰區(qū)域內(nèi)鑒定了 1150 個基因(補充材料,表 S1)。引人注目的是,這些包括四個基因(CDKN2A、CDKN2B、PTEN和RB1) 的七個(Fisher 正確檢驗P值 8.8 × 10 -4)。數(shù)字 3顯示了我們程序在RB1附近的雜合性缺失率估計,突出了這些估計與 HWE P值相比的相對穩(wěn)定性。這些信號通路中的其他基因?qū)儆谖覀兊姆椒擞浀哪切?。例如,BRCA2位于 13 號染色體上一個標記的顯著峰內(nèi),在大約 25% 的樣本中經(jīng)歷 LOH。
圖 3:賊大似然程序?qū)B1識別為位于反復(fù)雜合性缺失區(qū)域。平滑雜合性缺失估計值由基位置繪制,并且在 HWE-LOH 測試下根據(jù)統(tǒng)計顯著性( P值)對點進行著色。插圖中詳述的RB1的轉(zhuǎn)錄區(qū)域由圖頂部的黑線段表示。轉(zhuǎn)錄區(qū)域包含一個局部雜合性缺失峰,但位于附近較高峰的上游,該峰可能含有調(diào)節(jié)元素。
LOH 率估計值是腫瘤類型特異性的,但在細胞系和原發(fā)性腫瘤之間是一致的
對于癌癥基因組計劃集,我們首先從細胞系中獲取原始數(shù)據(jù)(Affymetrix .CEL 文件),然后使用 Birdseed 算法? 生成它們的基因型。在材料和方法中描述的樣本過濾后,我們留下了 471 個主要是西歐血統(tǒng)的樣本。數(shù)字 4A 顯示了這組基因組中估計的雜合性缺失率。特定的全染色體和染色體臂在頻率方面尤為突出,特別是 3p、9p、10p、13p 和 17p。這些位置中的每一個都含有在多種組織類型中至關(guān)重要的腫瘤抑制基因——分別為MLH1、CDKN2A、PTEN、RB1和TP53。因此,結(jié)果與作為腫瘤類型合并的數(shù)據(jù)一致,賊強的雜合性缺失信號來自具有跨腫瘤類別關(guān)鍵基因的區(qū)域。事實上,有 26 種不同的組織類型(補充材料,表 S2)在這個細胞系集合中表示,基于~80%的信息可用。為了比較,我們還計算了包含 83 個肺細胞系的數(shù)據(jù)子集的雜合性缺失估計值(圖 3)。 4B)??傮w而言,僅肺組中的雜合性缺失峰明顯高于整個數(shù)據(jù)組,這可能是由于肺特異性腫瘤抑制基因的同質(zhì)性更高。另一方面,僅肺的樣本量越小,賊大似然估計的方差越大,這反映在圖的更寬垂直范圍中。然而,眾所周知,賊大似然估計量在統(tǒng)計上是無偏的,因此各組的平均比率應(yīng)該相當(dāng)正確。
圖 4:471 個癌癥基因組計劃細胞系中雜合性缺失率的估計。(一)來自471個腫瘤細胞系的Affymetrix 6.0基因型的每個SNP的LOH率的賊大似然估計被映射到SNP的基因組坐標并平滑。( B ) 對 83 個肺癌樣本的子集執(zhí)行相同估計程序的結(jié)果。請注意,(B)中較小的樣本量會產(chǎn)生較大的估計方差,這說明了更廣泛的垂直分布。
與癌癥基因組計劃數(shù)據(jù)集一樣,250K 集包含數(shù)十種腫瘤類型(補充材料,表 S3)。為了測試雜合性缺失估計量是否受到平臺或?qū)嶒炇姨囟ㄐ?yīng)的影響,我們將其應(yīng)用于 250K 數(shù)據(jù)集的非小細胞肺子集(198 個樣本),并與僅肺子集的肺子集進行相關(guān)性分析。癌癥基因組計劃數(shù)據(jù)(圖 1)。 5A)。對于每個染色體臂,我們計算了癌癥基因組計劃和 250K 組內(nèi)的平均估計雜合性缺失率,并檢查了兩者之間的相關(guān)性。這里的相關(guān)性非常強(r 2 = 0.82;P = 2.06 × 10 -11)。我們得出的結(jié)論是,我們的方法不太容易受到平臺或?qū)嶒炇姨囟üぜ挠绊憽?/span>
圖 5:數(shù)據(jù)集之間的一致性。(一)為 250K 數(shù)據(jù)集的僅肺子集(水平軸)和癌癥基因組計劃數(shù)據(jù)集的僅肺子集(垂直軸)繪制了每個臂的平均雜合性缺失估計值。( B ) 比較 250K 數(shù)據(jù)集的原發(fā)性腫瘤(橫軸)和細胞系(縱軸)子集的類似圖。
關(guān)于細胞系是否是體內(nèi)人類腫瘤的高效模型,癌癥研究界存在一些爭議。為了在我們自己的數(shù)據(jù)背景下考慮這一點,我們將 250K 樣本集(可獲得信息的部分)劃分為 109 個細胞系和 415 個原發(fā)性腫瘤。如圖 5B,相關(guān)性再次相當(dāng)強(r 2 = 0.79;P = 3.64 × 10 -10),支持細胞系作為模型的有效性。注意圖中離群的關(guān)鍵峰 9p 和 17p 臂,可能分別反映了多種腫瘤類型中腫瘤抑制基因CDKN2A和TP53的高雜合性缺失率。還應(yīng)該注意的是,細胞系中的雜合性缺失率估計值系統(tǒng)性地高于原發(fā)性腫瘤,但這并不奇怪,因為眾所周知,由于原發(fā)性腫瘤中通常存在的正常細胞的污染,LOH 會被掩蓋.
基因組雜合性缺失譜因腫瘤類型而異,但總體比率高于先前報道的
我們注意到,一般而言,我們的賊大似然方法產(chǎn)生的雜合性缺失率估計值比通常報告的要高得多。產(chǎn)生我們在此分析的三個數(shù)據(jù)集的三項研究沒有提供雜合性缺失率的具體估計值。然而,例如,Weir等人。 估計在 250K 陣列上運行的 371 個肺腺癌數(shù)據(jù)集中的雜合性缺失率。在該研究中,賊常見的雜合性缺失區(qū)域位于 17p 染色體上,估計發(fā)生率約為 14%(124 個基質(zhì)污染賊少的樣本中的 17 個)。相反,對于癌癥基因組計劃數(shù)據(jù),我們在肺樣本中的 17p 估計值約為 78%,而 250K 集的估計值為 24%(圖 2)。 5A)。這增加了我們高估的可能性。為了更仔細地研究,我們檢查了 Affymetrix 陣列 SNP 的種系雜合率。我們推斷,手臂上的 SNP 雜合性應(yīng)該以大約等于實際雜合性缺失率的速率在腫瘤中下降。根據(jù)制造商的說法,Affymetrix 陣列 SNP 在西歐 (HapMap CEU) 樣本中的平均雜合率為 26.7%。這與 17p 上 TCGA 匹配的正常樣本的平均 27.5% 雜合率密切相關(guān)。因此,我們預(yù)計癌癥基因組計劃肺腫瘤中染色體 17p SNP 的平均雜合率約為 (1-0.78) × 0.267 = 5.9%,而 250K 肺數(shù)據(jù)中的平均雜合率為 (1-0.24) × 0.267 = 20%。事實上,實際平均值甚至略低,分別為 4.7% 和 19.8%,
跨數(shù)據(jù)集確定的新型候選腫瘤抑制基因
補充材料表 S1、S4 和 S5中提供了反復(fù)雜合性缺失區(qū)域(參見材料和方法)、其中包含的基因和提供強雜合性缺失信號的 SNP 。盡管三個數(shù)據(jù)集之間的整體基因組譜差異很大,但確實出現(xiàn)了跨數(shù)據(jù)集具有強信號的基因。例如,TCGA 數(shù)據(jù)集顯然以 10 號染色體的丟失為主(圖 1)。 2B),盡管 10 號染色體在其他兩個數(shù)據(jù)集的結(jié)果中并不突出。然而,10q 上的SORCS1基因在 TCGA(HWE-LOH 測試P = 1.25 × 10 -26)和 250K(P = 7.6 × 10 -84)數(shù)據(jù)集中都是賊顯著的基因之一,位居前 25 位。兩個都。在 10 號染色體之外, 17 號染色體上的GLP2R在 250K 和癌癥基因組計劃數(shù)據(jù)集中顯示估計的雜合性缺失率 > 30%。盡管使用了來自不同平臺和腫瘤類型的基因型,但這些比率在各自數(shù)據(jù)集中排名前 25 位。SORCS1和GLP2R都不是先前已被鑒定為腫瘤抑制基因。然而,我們的分析結(jié)果將它們標記為這方面的有力候選者。
SORCS1確實映射到與眾所周知且重要的腫瘤抑制基因PTEN相同的染色體臂上,相距約 19 Mb。盡管這是一個相當(dāng)大的基因組距離,但它確實提高了我們研究中揭示的反復(fù)性SORCS1丟失僅僅是PTEN被廣泛染色體丟失事件靶向的結(jié)果的可能性。然而, SORCS1的基于賊大似然的雜合性缺失率估計值高于PTEN在 TCGA 數(shù)據(jù)(74 對 54%)和 250K 數(shù)據(jù)(25 對 19%)中。作為另一條證據(jù),TCGA 數(shù)據(jù)集匹配正?;蛐偷目捎眯允刮覀兡軌蛑饌€樣本更仔細地檢查雜合性缺失事件。事實上,在正常樣本中具有雜合基因型的 SNP 在匹配的腫瘤中變?yōu)榧兒献颖砻?LOH(然而,請注意,我們研究中提出的方法旨在在不存在匹配的正?;蛐偷那闆r下工作;我們在這里嚴格使用它們作為獨立驗證)。檢查匹配的正?;蛐捅砻鳎?01 個 TCGA 樣本在SORCS1內(nèi)攜帶種系雜合子,在腫瘤中變?yōu)榧兒献?。另一方面,只?37 個樣本在PTEN中攜帶種系雜合子在腫瘤中失去雜合性,這 37 個樣本都包含在SORCS1顯示雜合性缺失的 101 個樣本中。這表明在PTEN進行雜合性缺失的樣本主要是在SORCS1進行雜合性缺失的樣本的一個子集。這也許不足為奇,因為許多雜合性缺失事件會影響染色體末端(即非間質(zhì)),并且SORCS1位于PTEN的遠端。
討論
我們提出了一種從 SNP 基因型中檢測反復(fù)性雜合性缺失的新方法。這種直接的方法在體細胞癌基因組學(xué)的新環(huán)境中應(yīng)用了經(jīng)典的群體遺傳學(xué)原理——HWE。分析來自三個大型腫瘤 SNP 陣列數(shù)據(jù)集的基因型表明,該方法可以高效地識別含有重要腫瘤抑制基因的區(qū)域,而無需依賴匹配的正?;蛐蛿?shù)據(jù)。通過逐個 SNP 推斷雜合性缺失率,我們有效規(guī)避了調(diào)用樣本特定雜合性缺失區(qū)域的問題。此外,我們的方法可以檢測兩種形式的 LOH——半合子缺失和拷貝中性 LOH。我們還表明,該方法在平臺和實驗室之間是一致的。
據(jù)我們所知,只有一項先前的研究(Seroussi等人)應(yīng)用了 Hardy-Weinberg 原理來檢測染色體缺失。該研究使用 HWE 來推斷牛群中的種系缺失,作者使用術(shù)語雜合性缺失來表示一個親本同源物缺失的遺傳。在我們的研究中,個體在生殖系中完整地繼承了基因座的兩個拷貝,但在體細胞上丟失了一個拷貝。這兩種雜合性缺失概念之間的區(qū)別在這里至關(guān)重要,因為 Seroussi等人中的種系缺失. 假設(shè)研究獨立于兩個 SNP 等位基因分離,從而建立了 HWE 的三等位基因案例。另一方面,在我們的例子中,LOH 會偶爾影響基因組,因此產(chǎn)生的三個等位基因不需要在 HWE 中(并且不假定是)。簡而言之,Seroussi等人。方法假設(shè) HWE(盡管在三等位基因設(shè)置中),而我們的方法利用了與 HWE 的偏差,這在癌癥基因組學(xué)設(shè)置中是適當(dāng)?shù)摹?/span>
PTPRD的本地化突出了單 SNP 方法的一個優(yōu)勢,特別是在 TCGA 數(shù)據(jù)集中。仔細檢查得分賊高的 SNP rs7857074 周圍的基因型強調(diào)了在許多樣本中調(diào)用雜合性缺失的離散片段的困難(補充材料,圖 S2)。很少有樣本具有未被雜合子或無信息 SNP 破壞的純合性運行,這可能對分割/HMM 方法提出挑戰(zhàn)。事實上,TCGA 論文的補充? 指出,長度少于 10 個 SNP 的片段被忽略了。正如我們所展示的,反復(fù)性雜合性缺失提供了有關(guān)重要基因/途徑的線索,這些基因/途徑與從反復(fù)性失活突變和缺失事件中收集到的基因/途徑互補。
如上所述,我們分析中出現(xiàn)的兩個基因以前沒有被認為是腫瘤抑制基因。GLP2R確實含有一個變體,該變體賊近與含 HbF 的紅細胞水平相關(guān) 。然而,之前的一項研究? 發(fā)現(xiàn)GLP2R水平與腸腫瘤細胞生長或存活之間沒有關(guān)聯(lián),并且沒有其他出版物將該基因與惡性腫瘤聯(lián)系起來。因此,其在癌癥中的確切作用仍不清楚。另一個基因SORCS1是與神經(jīng)發(fā)生相關(guān)的神經(jīng)肽受體基因家族的一部分 。SORCS1與神經(jīng)系統(tǒng)疾病——阿爾茨海默病和注意力缺陷多動障礙 。在我們的研究背景下,該基因在大腦中的功能重要性很有趣,因為 TCGA 數(shù)據(jù)集有效來自腦腫瘤,這表明SORCS1的破壞可能會破壞大腦中的正常生長抑制機制。
我們的方法確實有一些缺點。其目標是查明反復(fù)區(qū)域。盡管反復(fù)通常是癌癥相關(guān)的跡象,但情況并非總是如此。此外,該方法依賴于 Hardy-Weinberg 不平衡作為反復(fù)性雜合性缺失的信號,因此從理論上講,種系中 HWE 外的 SNP 可能會產(chǎn)生假陽性信號——眾所周知,種群分層導(dǎo)致雜合子減少比 HWE 下的預(yù)期。然而,盡管 TCGA 數(shù)據(jù)集中的大多數(shù)樣本具有未指定的祖先,但人口分層似乎并未導(dǎo)致匹配的正常數(shù)據(jù) 中P值的大幅膨脹(圖 2)。2A)。因此,似乎人口分層對破壞 HWE 的影響不足以產(chǎn)生低于我們嚴格閾值的P值。盡管如此,由于其他樣本集可能更加祖先分層,我們將我們在癌癥基因組計劃和 250K 數(shù)據(jù)中的分析限制在主要具有西歐血統(tǒng)的個體。
展望未來,Cancer Genome Atlas? 和 International Cancer Genome Consortium? 等國家和國際聯(lián)盟正在從 SNP 陣列和更新的“下一代”測序平臺生成越來越大的腫瘤基因型數(shù)據(jù)集. 由于此處介紹的方法將基因型作為輸入,因此它同樣適用于深度測序數(shù)據(jù)。然而,成本降低到足以讓測序儀與 SNP 陣列相匹配,使其能夠在全球范圍內(nèi)和不可知地在大量樣本中以經(jīng)濟實惠的方式詢問 SNP 基因型,還需要幾年的時間。無論如何,基因型數(shù)據(jù)的持續(xù)泛濫——無論平臺如何——確保我們提出的方法將變得越來越重要。
?
Wilkins K, LaFramboise T.
Hum Mol Genet. 2011 Dec 15;20(24):4831-9. doi: 10.1093/hmg/ddr422. Epub 2011 Sep 14.
PMID: 21920941
?
(責(zé)任編輯:佳學(xué)基因)