機(jī)器學(xué)習(xí)的最新進(jìn)展為精準(zhǔn)醫(yī)學(xué)和轉(zhuǎn)化研究提供了信息。計(jì)算病理學(xué)將計(jì)算機(jī)視覺(jué)方法應(yīng)用于臨床和病理圖像,并從基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)中收益匪淺。卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型可以穩(wěn)健地預(yù)測(cè)特定癌癥類型中常見(jiàn)的突變基因。然而,目前還未有研究報(bào)道將豐度的蛋白組學(xué)數(shù)據(jù)與組織特征聯(lián)系起來(lái)?,F(xiàn)在也很少有弱監(jiān)督深度學(xué)習(xí)研究將病理學(xué)專業(yè)知識(shí)整合到研究設(shè)計(jì)和解釋中,導(dǎo)致模型可能缺乏人類可解釋性或與腫瘤生物學(xué)的明確相關(guān)性。
2023年9月,紐約大學(xué)格羅斯曼醫(yī)學(xué)院的研究團(tuán)隊(duì)在期刊Cell Reports Medicine(IF=14.3)發(fā)表題目為《Deep learning integrates histopathology and proteogenomics at a pan-cancer level》的研究論文,該研究引入一種開(kāi)創(chuàng)性的方法,將病理成像與轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué)相結(jié)合,以確定與癌癥關(guān)鍵臨床結(jié)果相關(guān)的預(yù)測(cè)性組織學(xué)特征。
文章題目:Deep learning integrates histopathology and proteogenomics at a pan-cancer level
發(fā)表期刊:Cell Reports Medicine
影響因子:14.3
發(fā)表時(shí)間:2023年9月
發(fā)表單位:紐約大學(xué)格羅斯曼醫(yī)學(xué)院
該研究利用卷積神經(jīng)網(wǎng)絡(luò)模型,對(duì)來(lái)自癌癥基因組圖譜(TCGA)和臨床蛋白質(zhì)組腫瘤分析聯(lián)盟(CPTAC)的組織樣本圖像進(jìn)行了處理和分析。建立了來(lái)自CPTAC的657名患者包含2,755張H&E染色切片的圖像庫(kù),涵蓋了六種癌癥類型[腎透明細(xì)胞癌(CCRCC),頭頸部鱗狀細(xì)胞癌(HNSCC),肺鱗狀細(xì)胞癌(LSCC),肺腺癌(LUAD),胰腺導(dǎo)管腺癌(PDA),子宮體內(nèi)膜癌(UCEC)],以有效區(qū)分腫瘤與正常和起源組織。
結(jié)合轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué),確定了驅(qū)動(dòng)預(yù)測(cè)性組織學(xué)特征的通路水平和細(xì)胞過(guò)程。通過(guò)使用TCGA確認(rèn)了模型的泛化能力和可解釋性。
利用先進(jìn)的圖像處理和機(jī)器學(xué)習(xí)技術(shù),對(duì)癌癥組織樣本進(jìn)行了深入的分析,旨在通過(guò)組織圖像特征來(lái)預(yù)測(cè)臨床特征和生物標(biāo)志物,從而推動(dòng)癌癥診斷和治療的進(jìn)步。
圖1 工作流程
盡管已經(jīng)有許多針對(duì)多種惡性腫瘤的分子靶向治療,但腫瘤的組織來(lái)源仍然是選擇治療方案和基于腫瘤分級(jí)和分期的預(yù)后預(yù)測(cè)的重要因素。該研究通過(guò)正常組織和腫瘤樣本進(jìn)行模型訓(xùn)練,來(lái)預(yù)測(cè)腫瘤的組織來(lái)源,并建立了全球范圍內(nèi)來(lái)自不同器官系統(tǒng)的癌癥變異的基線。模型表現(xiàn)異常出色,AUROC值(曲線下面積)達(dá)到0.949到0.995(圖2A, 2B)。還通過(guò)tSNE(t-Distributed Stochastic Neighbor Embedding)技術(shù)可視化了從最后卷積層學(xué)習(xí)到的潛在特征,以推斷不同組織類型之間的分離程度(圖2C, 2D)。模型在TCGA(The Cancer Genome Atlas)樣本上進(jìn)行了驗(yàn)證,包括FFPE(福爾馬林固定石蠟包埋)和新鮮冷凍切片圖像。模型在FFPE切片上的泛化能力更好,這可能與冷凍切片樣本制備過(guò)程中組織特征的已知人為降解有關(guān)。
為了研究驅(qū)動(dòng)預(yù)測(cè)形態(tài)改變的轉(zhuǎn)錄組和直接相關(guān)組織的蛋白組機(jī)制,應(yīng)用稀疏CCA(Canonical Correlation Analysis)統(tǒng)計(jì)方法,用于在基因/蛋白/圖像空間中提取高維旋轉(zhuǎn)(canonical variates),UCEC和LUAD樣本的投影值表現(xiàn)出最大程度地相互關(guān)聯(lián)。
圖2 組織源模型性能和組學(xué)聯(lián)合
利用深度學(xué)習(xí)CNN模型對(duì)腫瘤和正常鄰近組織(NAT)進(jìn)行區(qū)分。首先通過(guò)訓(xùn)練一個(gè)單一的泛癌癥成像模型來(lái)識(shí)別區(qū)分腫瘤和NAT樣本,然后為每種癌癥類型訓(xùn)練了單獨(dú)的模型,以隔離各個(gè)器官系統(tǒng)特有的腫瘤發(fā)生特征。這些模型在分類腫瘤和NAT時(shí)取得了很高的準(zhǔn)確率,實(shí)現(xiàn)高AUROC的泛癌癥模型,并在TCGA測(cè)試集驗(yàn)證了模型的有效性和可靠性。
采用了類激活映射(CAM)來(lái)展示深度學(xué)習(xí)模型的關(guān)注點(diǎn),發(fā)現(xiàn)模型在全切片水平聚合時(shí),通常更關(guān)注腫瘤區(qū)域而非正常區(qū)域。還提取了測(cè)試集樣本在倒數(shù)第二層的激活圖,并進(jìn)行了降維處理以顯示二維tSNE圖。觀察到腫瘤樣本聚類在頂部,而正常樣本聚類在底部,且預(yù)測(cè)標(biāo)簽和真實(shí)標(biāo)簽相關(guān)性良好。通過(guò)審查與tSNE圖上的點(diǎn)相對(duì)應(yīng)的H&E切片,證實(shí)了腫瘤組織簇準(zhǔn)確地捕捉到了常見(jiàn)的腫瘤發(fā)生特征。
圖3 腫瘤發(fā)生模型的特征可視化和交叉測(cè)試
此外,還評(píng)估了泛癌癥模型在分子特征方面的表現(xiàn),通過(guò)成像和轉(zhuǎn)錄組或蛋白質(zhì)組特征的投影值分析,發(fā)現(xiàn)正常和腫瘤樣本之間有明確的區(qū)分。對(duì)轉(zhuǎn)錄組和蛋白組的通路分析,特定基因和蛋白質(zhì)富集于細(xì)胞周期DNA復(fù)制和雙鏈斷裂修復(fù)相關(guān)通路。另一個(gè)典型變量顯示了LSCC和LUAD與NAT之間的明顯分離,以及HNSCC腫瘤與NAT之間的中度分離。這些結(jié)果證明成像模型已經(jīng)學(xué)會(huì)了代表可解釋生物學(xué)信號(hào)的特征,這些信號(hào)與可識(shí)別的H&E特征相對(duì)應(yīng),而不是隨機(jī)噪聲的結(jié)果。
圖4 與腫瘤發(fā)生相關(guān)的主要典型變量
分級(jí)和分期是關(guān)鍵的臨床預(yù)后指標(biāo),可能與驅(qū)動(dòng)腫瘤侵襲性行為的潛在分子變化有關(guān)。通過(guò)訓(xùn)練模型來(lái)預(yù)測(cè)病理分級(jí)(1類任務(wù))和分期(2類任務(wù))(圖5A),模型的預(yù)測(cè)能力通過(guò)AUROC值來(lái)評(píng)估。對(duì)于分級(jí)預(yù)測(cè),最佳單片AUROC值分別為0.883和0.799 。對(duì)于分期,最佳單片AUROC值分別為0.783和0.727。研究發(fā)現(xiàn),TCGA等級(jí)數(shù)據(jù)不適用于測(cè)試模型的普遍性,進(jìn)一步使用稀疏CCA來(lái)識(shí)別生物相關(guān)性,在轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué)水平上,染色體分離和減數(shù)分裂信號(hào)之間的信號(hào)傳導(dǎo)最強(qiáng),具有較高的分級(jí)和分期。此外,還識(shí)別出一個(gè)與平面細(xì)胞極性相關(guān)的典型變量,這可能是導(dǎo)致高分級(jí)腫瘤中細(xì)胞遷移和增殖增加的原因之一。
圖5 模型性能及等級(jí)和階段的多組學(xué)評(píng)價(jià)
研究通過(guò)測(cè)試模型從組織病理學(xué)圖像預(yù)測(cè)常見(jiàn)基因組生物標(biāo)志物的能力,模型能夠準(zhǔn)確預(yù)測(cè)包括EGFR、TP53、KRAS、STK11和PTEN在內(nèi)的特定突變(圖6A),這表明該模型可以用于區(qū)分?jǐn)y帶常見(jiàn)突變的腫瘤。在進(jìn)一步的探索中,使用tSNE降維技術(shù)預(yù)測(cè)突變,發(fā)現(xiàn)不同類型的突變與特定的組織病理學(xué)特征相關(guān)(圖6B)。例如,TP53突變與高密度、小細(xì)胞的腫瘤特征相關(guān),而KRAS突變則與較大的細(xì)胞核、開(kāi)放的染色質(zhì)和腺體特征相關(guān)。
最后,通過(guò)盲法病理學(xué)審查驗(yàn)證模型預(yù)測(cè)的生物學(xué)相關(guān)性。發(fā)現(xiàn),TP53突變的樣本通常具有密集的細(xì)胞、淋巴細(xì)胞浸潤(rùn)、高有絲分裂率、增加的核質(zhì)比等特征,這些特征與模型預(yù)測(cè)的結(jié)果一致。
圖6 生物標(biāo)記物的性能、可視化和特征提取
為了促進(jìn)臨床和轉(zhuǎn)化研究工作流程的整合,研究團(tuán)隊(duì)開(kāi)發(fā)了一種直觀的可視化工具Panoptes Web (http://panoptes.fenyo.cloud),供臨床醫(yī)生、科學(xué)家和讀者使用獨(dú)立的H&E圖像評(píng)估模型的性能,直觀可視化預(yù)測(cè)結(jié)果(圖7A)。結(jié)果繪制在概率得分和課堂結(jié)果的直觀方框圖中,以及基于web的查看器,詳細(xì)說(shuō)明逐塊預(yù)測(cè)(圖7B)。
圖7 Panoptes Web
本研究通過(guò)深度學(xué)習(xí)的方法,成功地在泛癌癥層面上整合了組織病理學(xué)與轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué)數(shù)據(jù),揭示了潛在聯(lián)系和互補(bǔ)性。通過(guò)構(gòu)建多模態(tài)深度學(xué)習(xí)模型,證明了結(jié)合這兩種類型的生物標(biāo)志物可以顯著提高癌癥分類和預(yù)后的準(zhǔn)確性。還開(kāi)發(fā)出了可以幫助臨床醫(yī)生評(píng)估和預(yù)測(cè)癌癥分子和臨床結(jié)果的新型工具Panoptes Web。
@2024北京青蓮百奧生物科技有限公司 京ICP備17052224號(hào)