本文作者:kaifamei

基于基因突變的肺癌免疫療效預(yù)測(cè)方法、系統(tǒng)及存儲(chǔ)介質(zhì)

更新時(shí)間:2025-12-24 22:26:42 0條評(píng)論

基于基因突變的肺癌免疫療效預(yù)測(cè)方法、系統(tǒng)及存儲(chǔ)介質(zhì)



1.本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其是一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法、系統(tǒng)及存儲(chǔ)介質(zhì)。


背景技術(shù):



2.雖然近年來已證實(shí)免疫檢查點(diǎn)阻斷(icb)在非小細(xì)胞肺癌(nsclc)的預(yù)測(cè)中是成功的,但這些生物標(biāo)志物的預(yù)測(cè)價(jià)值相對(duì)有限,如pd-l1表達(dá)、腫瘤突變負(fù)荷(tmb)和基因表達(dá)譜(gep),因此,尋更多有效、準(zhǔn)確的生物標(biāo)志物來預(yù)測(cè)icb受益是至關(guān)重要的。
3.相關(guān)研究表明,來自單核苷酸變異(snv)的突變基因與icb反應(yīng)顯著相關(guān),stk11、b2m和egfr突變或mdm2擴(kuò)增已被報(bào)道與低反應(yīng)性甚至高進(jìn)展性疾病(hpd)相關(guān)。相反,tp53、kras和pole突變,或kp(kras和tp53的共同突變)分子亞型與晚期nsclc的icb反應(yīng)呈正相關(guān)。此外,在非小細(xì)胞肺癌患者中,ddr和notch通路的突變或協(xié)同突變顯示icb對(duì)臨床有很好的益處。
4.由上述內(nèi)容可知,亟需開發(fā)一種基于snv突變基因來預(yù)測(cè)肺癌免疫療效的方法,以提高肺癌免疫療效預(yù)測(cè)的準(zhǔn)確性和可靠性。


技術(shù)實(shí)現(xiàn)要素:



5.本發(fā)明的目的在于至少一定程度上解決現(xiàn)有技術(shù)中存在的技術(shù)問題之一。
6.為此,本發(fā)明實(shí)施例的一個(gè)目的在于提供一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法,該方法提高了肺癌免疫療效預(yù)測(cè)的準(zhǔn)確性和可靠性。
7.本發(fā)明實(shí)施例的另一個(gè)目的在于提供一種基于基因突變的肺癌免疫療效預(yù)測(cè)系統(tǒng)。
8.為了達(dá)到上述技術(shù)目的,本發(fā)明實(shí)施例所采取的技術(shù)方案包括:
9.第一方面,本發(fā)明實(shí)施例提供了一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法,包括以下步驟:
10.從非小細(xì)胞肺癌患者的樣本測(cè)序數(shù)據(jù)中獲取第一snv特征集;
11.通過隨機(jī)森林算法對(duì)所述第一snv特征集進(jìn)行特征選擇得到多個(gè)第一突變基因,并根據(jù)所述第一突變基因生成第一特征基因組;
12.根據(jù)所述第一特征基因組構(gòu)建訓(xùn)練樣本集,并將所述訓(xùn)練樣本集輸入到預(yù)先構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò),得到訓(xùn)練好的肺癌免疫療效預(yù)測(cè)模型;
13.獲取待預(yù)測(cè)肺癌患者的第二snv數(shù)據(jù),并根據(jù)所述第二snv數(shù)據(jù)確定第二特征基因組,進(jìn)而將所述第二特征基因組輸入到所述肺癌免疫療效預(yù)測(cè)模型,得到所述待預(yù)測(cè)肺癌患者的肺癌免疫療效預(yù)測(cè)結(jié)果。
14.進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述從非小細(xì)胞肺癌患者的樣本測(cè)序數(shù)據(jù)中獲取第一snv特征集這一步驟,其具體包括:
15.獲取預(yù)設(shè)的多個(gè)非小細(xì)胞肺癌患者的第一樣本,所述第一樣本為腫瘤樣本或血液
樣本;
16.對(duì)所述第一樣本進(jìn)行基因測(cè)序得到樣本測(cè)序數(shù)據(jù);
17.將所述樣本測(cè)序數(shù)據(jù)與預(yù)設(shè)的人體參考基因組進(jìn)行比對(duì),確定所述第一樣本的snv特征位點(diǎn);
18.根據(jù)所述snv特征位點(diǎn)確定所述第一snv特征集。
19.進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述通過隨機(jī)森林算法對(duì)所述第一snv特征集進(jìn)行特征選擇得到多個(gè)第一突變基因這一步驟,其具體包括:
20.根據(jù)所述第一snv特征集構(gòu)建隨機(jī)森林,并通過所述第一snv特征集訓(xùn)練所述隨機(jī)森林的各個(gè)決策樹,進(jìn)而根據(jù)所述決策樹確定所述snv特征位點(diǎn)的特征重要性;
21.根據(jù)所述特征重要性對(duì)所述snv特征位點(diǎn)進(jìn)行降序排序得到第一snv特征序列,并按照預(yù)設(shè)的剔除比例從所述第一snv特征序列中剔除排序值靠后的若干個(gè)snv特征位點(diǎn),得到第二snv特征序列;
22.根據(jù)所述第二snv特征序列更新所述第一snv特征集,并返回根據(jù)所述第一snv特征集構(gòu)建隨機(jī)森林這一步驟,直至所述第一snv特征集中剩余的snv特征位點(diǎn)的數(shù)量達(dá)到預(yù)設(shè)的第一閾值,確定剩余的snv特征位點(diǎn)為所述第一突變基因。
23.進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述根據(jù)所述決策樹確定所述snv特征位點(diǎn)的特征重要性這一步驟,其具體包括:
24.獲取所述第一snv特征集的袋外數(shù)據(jù),根據(jù)所述袋外數(shù)據(jù)計(jì)算得到所述決策樹的第一袋外數(shù)據(jù)誤差;
25.對(duì)所述袋外數(shù)據(jù)的snv特征位點(diǎn)加入噪聲干擾得到干擾袋外數(shù)據(jù),并根據(jù)所述干擾袋外數(shù)據(jù)計(jì)算得到所述決策樹的第二袋外數(shù)據(jù)誤差;
26.根據(jù)所述第一袋外數(shù)據(jù)誤差和所述第二袋外數(shù)據(jù)誤差確定所述snv特征位點(diǎn)的特征重要性。
27.進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述根據(jù)所述第一特征基因組構(gòu)建訓(xùn)練樣本集這一步驟,其具體包括:
28.根據(jù)所述非小細(xì)胞肺癌患者的肺癌免疫療效觀測(cè)結(jié)果對(duì)所述第一特征基因組進(jìn)行標(biāo)注,得到肺癌免疫療效標(biāo)簽;
29.根據(jù)所述第一特征基因組和對(duì)應(yīng)的肺癌免疫療效標(biāo)簽構(gòu)建訓(xùn)練樣本集。
30.進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述將所述訓(xùn)練樣本集輸入到預(yù)先構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò),得到訓(xùn)練好的肺癌免疫療效預(yù)測(cè)模型這一步驟,其具體包括:
31.將所述訓(xùn)練樣本集輸入到預(yù)先構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò),得到第一預(yù)測(cè)結(jié)果;
32.根據(jù)所述第一預(yù)測(cè)結(jié)果和所述肺癌免疫療效標(biāo)簽確定所述卷積神經(jīng)網(wǎng)絡(luò)的損失值;
33.根據(jù)所述損失值通過反向傳播算法更新所述卷積神經(jīng)網(wǎng)絡(luò)的參數(shù);
34.當(dāng)損失值達(dá)到預(yù)設(shè)的第二閾值或迭代次數(shù)達(dá)到預(yù)設(shè)的第三閾值,停止訓(xùn)練,得到訓(xùn)練好的肺癌免疫療效預(yù)測(cè)模型。
35.進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述獲取待預(yù)測(cè)肺癌患者的第二snv數(shù)據(jù),并根據(jù)所述第二snv數(shù)據(jù)確定第二特征基因組這一步驟,其具體包括:
36.從待預(yù)測(cè)肺癌患者的樣本測(cè)序數(shù)據(jù)中獲取第二snv特征集;
37.通過隨機(jī)森林算法對(duì)所述第二snv特征集進(jìn)行特征選擇得到多個(gè)第二突變基因,并根據(jù)所述第二突變基因生成第二特征基因組。
38.第二方面,本發(fā)明實(shí)施例提供了一種基于基因突變的肺癌免疫療效預(yù)測(cè)系統(tǒng),包括:
39.snv特征集獲取模塊,用于從非小細(xì)胞肺癌患者的樣本測(cè)序數(shù)據(jù)中獲取第一snv特征集;
40.特征基因組生成模塊,用于通過隨機(jī)森林算法對(duì)所述第一snv特征集進(jìn)行特征選擇得到多個(gè)第一突變基因,并根據(jù)所述第一突變基因生成第一特征基因組;
41.模型訓(xùn)練模塊,用于根據(jù)所述第一特征基因組構(gòu)建訓(xùn)練樣本集,并將所述訓(xùn)練樣本集輸入到預(yù)先構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò),得到訓(xùn)練好的肺癌免疫療效預(yù)測(cè)模型;
42.模型預(yù)測(cè)模塊,用于獲取待預(yù)測(cè)肺癌患者的第二snv數(shù)據(jù),并根據(jù)所述第二snv數(shù)據(jù)確定第二特征基因組,進(jìn)而將所述第二特征基因組輸入到所述肺癌免疫療效預(yù)測(cè)模型,得到所述待預(yù)測(cè)肺癌患者的肺癌免疫療效預(yù)測(cè)結(jié)果。
43.第三方面,本發(fā)明實(shí)施例提供了一種基于基因突變的肺癌免疫療效預(yù)測(cè)裝置,包括:
44.至少一個(gè)處理器;
45.至少一個(gè)存儲(chǔ)器,用于存儲(chǔ)至少一個(gè)程序;
46.當(dāng)所述至少一個(gè)程序被所述至少一個(gè)處理器執(zhí)行時(shí),使得所述至少一個(gè)處理器實(shí)現(xiàn)上述的一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法。
47.第四方面,本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中存儲(chǔ)有處理器可執(zhí)行的程序,所述處理器可執(zhí)行的程序在由處理器執(zhí)行時(shí)用于執(zhí)行上述的一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法。
48.本發(fā)明的優(yōu)點(diǎn)和有益效果將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到:
49.本發(fā)明實(shí)施例從非小細(xì)胞肺癌患者的樣本測(cè)序數(shù)據(jù)中獲取第一snv特征集,然后通過隨機(jī)森林算法對(duì)第一snv特征集進(jìn)行特征選擇得到多個(gè)第一突變基因,并根據(jù)第一突變基因生成第一特征基因組,再根據(jù)第一特征基因組構(gòu)建訓(xùn)練樣本集,并將訓(xùn)練樣本集輸入到預(yù)先構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò),得到訓(xùn)練好的肺癌免疫療效預(yù)測(cè)模型,從而可以根據(jù)肺癌免疫療效預(yù)測(cè)模型對(duì)待預(yù)測(cè)肺癌患者進(jìn)行肺癌免疫療效預(yù)測(cè)。本發(fā)明實(shí)施例通過隨機(jī)森林算法對(duì)snv特征集進(jìn)行特征選擇可以提取出與icb反應(yīng)高度相關(guān)的突變基因,然后根據(jù)這些突變基因生成特征基因組用于訓(xùn)練肺癌免疫療效預(yù)測(cè)模型,充分利用了snv突變基因與肺癌免疫療效的相關(guān)性,提高了肺癌免疫療效預(yù)測(cè)的準(zhǔn)確性和可靠性。
附圖說明
50.為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面對(duì)本發(fā)明實(shí)施例中所需要使用的附圖作以下介紹,應(yīng)當(dāng)理解的是,下面介紹中的附圖僅僅為了方便清晰表述本發(fā)明的技術(shù)方案中的部分實(shí)施例,對(duì)于本領(lǐng)域的技術(shù)人員來說,在無需付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲取到其他附圖。
51.圖1為本發(fā)明實(shí)施例提供的一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法的步驟流
程圖;
52.圖2為本發(fā)明實(shí)施例提供的一種基于基因突變的肺癌免疫療效預(yù)測(cè)系統(tǒng)的結(jié)構(gòu)框圖;
53.圖3為本發(fā)明實(shí)施例提供的一種基于基因突變的肺癌免疫療效預(yù)測(cè)裝置的結(jié)構(gòu)框圖。
具體實(shí)施方式
54.下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。對(duì)于以下實(shí)施例中的步驟編號(hào),其僅為了便于闡述說明而設(shè)置,對(duì)步驟之間的順序不做任何限定,實(shí)施例中的各步驟的執(zhí)行順序均可根據(jù)本領(lǐng)域技術(shù)人員的理解來進(jìn)行適應(yīng)性調(diào)整。
55.在本發(fā)明的描述中,多個(gè)的含義是兩個(gè)或兩個(gè)以上,如果有描述到第一、第二只是用于區(qū)分技術(shù)特征為目的,而不能理解為指示或暗示相對(duì)重要性或者隱含指明所指示的技術(shù)特征的數(shù)量或者隱含指明所指示的技術(shù)特征的先后關(guān)系。此外,除非另有定義,本文所使用的所有的技術(shù)和科學(xué)術(shù)語(yǔ)與本技術(shù)領(lǐng)域的技術(shù)人員通常理解的含義相同。
56.參照?qǐng)D1,本發(fā)明實(shí)施例提供了一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法,具體包括以下步驟:
57.s101、從非小細(xì)胞肺癌患者的樣本測(cè)序數(shù)據(jù)中獲取第一snv特征集。
58.具體地,人體基因組上平均約每1000個(gè)核苷酸即可能出現(xiàn)1個(gè)單核苷酸多態(tài)性的變化,其中有些單核苷酸多態(tài)性可能與疾病有關(guān),但可能大多數(shù)與疾病無關(guān)。單核苷酸多態(tài)性是研究人類家族和動(dòng)植物品系遺傳變異的重要依據(jù),在研究癌癥基因組變異時(shí),相對(duì)于正常組織,癌癥中特異的單核苷酸變異是一種體細(xì)胞突變,也即snv。本發(fā)明實(shí)施例通過對(duì)非小細(xì)胞肺癌患者的樣本測(cè)序數(shù)據(jù)和人體參考基因組進(jìn)行比對(duì)獲取snv特征集,該snv特征集包括多個(gè)snv特征位點(diǎn)(即單核苷酸變異位點(diǎn)),可用于后續(xù)肺癌免疫療效預(yù)測(cè)模型的訓(xùn)練。步驟s101具體包括以下步驟:
59.s1011、獲取預(yù)設(shè)的多個(gè)非小細(xì)胞肺癌患者的第一樣本,第一樣本為腫瘤樣本或血液樣本;
60.s1012、對(duì)第一樣本進(jìn)行基因測(cè)序得到樣本測(cè)序數(shù)據(jù);
61.s1013、將樣本測(cè)序數(shù)據(jù)與預(yù)設(shè)的人體參考基因組進(jìn)行比對(duì),確定第一樣本的snv特征位點(diǎn);
62.s1014、根據(jù)snv特征位點(diǎn)確定第一snv特征集。
63.具體地,本發(fā)明實(shí)施例采用ngs基因測(cè)序?qū)Φ谝粯颖具M(jìn)行處理得到樣本測(cè)序數(shù)據(jù)。新一代測(cè)序(ngs)是一種大規(guī)模平行測(cè)序技術(shù),能夠以超高的通量、超強(qiáng)的可擴(kuò)展性和超快的速度進(jìn)行測(cè)序,該技術(shù)用于確定整個(gè)基因組或dna或rna的目標(biāo)區(qū)域中核苷酸的順序。
64.s102、通過隨機(jī)森林算法對(duì)第一snv特征集進(jìn)行特征選擇得到多個(gè)第一突變基因,并根據(jù)第一突變基因生成第一特征基因組。
65.具體地,本發(fā)明實(shí)施例通過隨機(jī)森林算法對(duì)snv特征集中的snv特征位點(diǎn)進(jìn)行特征選擇,僅保留特征重要性高的多個(gè)snv特征位點(diǎn)作為第一突變基因,然后組合生成第一特征
基因組。
66.進(jìn)一步作為可選的實(shí)施方式,通過隨機(jī)森林算法對(duì)第一snv特征集進(jìn)行特征選擇得到多個(gè)第一突變基因這一步驟,其具體包括:
67.a1、根據(jù)第一snv特征集構(gòu)建隨機(jī)森林,并通過第一snv特征集訓(xùn)練隨機(jī)森林的各個(gè)決策樹,進(jìn)而根據(jù)決策樹確定snv特征位點(diǎn)的特征重要性;
68.a2、根據(jù)特征重要性對(duì)snv特征位點(diǎn)進(jìn)行降序排序得到第一snv特征序列,并按照預(yù)設(shè)的剔除比例從第一snv特征序列中剔除排序值靠后的若干個(gè)snv特征位點(diǎn),得到第二snv特征序列;
69.a3、根據(jù)第二snv特征序列更新第一snv特征集,并返回根據(jù)第一snv特征集構(gòu)建隨機(jī)森林這一步驟,直至第一snv特征集中剩余的snv特征位點(diǎn)的數(shù)量達(dá)到預(yù)設(shè)的第一閾值,確定剩余的snv特征位點(diǎn)為第一突變基因。
70.具體地,特征選擇的目標(biāo)有兩個(gè):一是到與應(yīng)變量高度相關(guān)的特征變量(即snv特征位點(diǎn)),二是選擇出數(shù)目較少并且能夠充分的預(yù)測(cè)應(yīng)變量的特征變量。
71.本發(fā)明實(shí)施例中通過隨機(jī)森林算法進(jìn)行特征選擇的步驟為:1)對(duì)隨機(jī)森林中的snv特征位點(diǎn)按照特征重要性進(jìn)行降序排序;2)確定刪除比例,從當(dāng)前的snv特征位點(diǎn)中剔除相應(yīng)比例不重要的指標(biāo),從而得到一個(gè)新的snv特征集;3)利用新的snv特征集建立新的隨機(jī)森林,重新計(jì)算snv特征位點(diǎn)的特征重要性并進(jìn)行排序;4)重復(fù)以上步驟,直到剩下預(yù)設(shè)數(shù)量的snv特征位點(diǎn)。
72.進(jìn)一步作為可選的實(shí)施方式,根據(jù)決策樹確定snv特征位點(diǎn)的特征重要性這一步驟,其具體包括:
73.b1、獲取第一snv特征集的袋外數(shù)據(jù),根據(jù)袋外數(shù)據(jù)計(jì)算得到?jīng)Q策樹的第一袋外數(shù)據(jù)誤差;
74.b2、對(duì)袋外數(shù)據(jù)的snv特征位點(diǎn)加入噪聲干擾得到干擾袋外數(shù)據(jù),并根據(jù)干擾袋外數(shù)據(jù)計(jì)算得到?jīng)Q策樹的第二袋外數(shù)據(jù)誤差;
75.b3、根據(jù)第一袋外數(shù)據(jù)誤差和第二袋外數(shù)據(jù)誤差確定snv特征位點(diǎn)的特征重要性。
76.具體地,在隨機(jī)森林中某個(gè)snv特征位點(diǎn)的特征重要性的計(jì)算方法如下:
77.1)對(duì)于隨機(jī)森林中的每一顆決策樹,使用相應(yīng)的袋外數(shù)據(jù)來計(jì)算它的袋外數(shù)據(jù)誤差,記為erroob1;
78.可以理解的是,每次建立決策樹時(shí),通過重復(fù)抽樣得到數(shù)據(jù)用于訓(xùn)練決策樹,這時(shí)還有大約1/3的數(shù)據(jù)沒有被利用,即沒有參與決策樹的建立,這部分?jǐn)?shù)據(jù)可以用于對(duì)決策樹的性能進(jìn)行評(píng)估,計(jì)算模型的預(yù)測(cè)錯(cuò)誤率,即為袋外數(shù)據(jù)。
79.2)隨機(jī)地對(duì)袋外數(shù)據(jù)所有樣本的snv特征位點(diǎn)加入噪聲干擾(如隨機(jī)改變樣本在snv特征位點(diǎn)處的值),再次計(jì)算決策樹的袋外數(shù)據(jù)誤差,記為erroob2;
80.3)假設(shè)隨機(jī)森林中有n個(gè)決策樹樹,那么snv特征位點(diǎn)的特征重要性可以通過下式計(jì)算得到;
81.y=∑(erroob2-erroob1)/n;
82.可以理解的是,若給某個(gè)特征隨機(jī)加入噪聲之后,袋外數(shù)據(jù)的準(zhǔn)確率大幅度降低,則說明這個(gè)特征對(duì)于樣本的分類結(jié)果影響很大,也即相當(dāng)于其重要程度比較高。
83.本發(fā)明實(shí)施例中,將第一閾值設(shè)為55,通過隨機(jī)森林算法篩選出的55個(gè)突變基因
如下表1所示。
[0084][0085]
表1
[0086]
s103、根據(jù)第一特征基因組構(gòu)建訓(xùn)練樣本集,并將訓(xùn)練樣本集輸入到預(yù)先構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò),得到訓(xùn)練好的肺癌免疫療效預(yù)測(cè)模型。
[0087]
進(jìn)一步作為可選的實(shí)施方式,根據(jù)第一特征基因組構(gòu)建訓(xùn)練樣本集這一步驟,其具體包括:
[0088]
c1、根據(jù)非小細(xì)胞肺癌患者的肺癌免疫療效觀測(cè)結(jié)果對(duì)第一特征基因組進(jìn)行標(biāo)注,得到肺癌免疫療效標(biāo)簽;
[0089]
c2、根據(jù)第一特征基因組和對(duì)應(yīng)的肺癌免疫療效標(biāo)簽構(gòu)建訓(xùn)練樣本集。
[0090]
進(jìn)一步作為可選的實(shí)施方式,將訓(xùn)練樣本集輸入到預(yù)先構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò),得到訓(xùn)練好的肺癌免疫療效預(yù)測(cè)模型這一步驟,其具體包括:
[0091]
d1、將訓(xùn)練樣本集輸入到預(yù)先構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò),得到第一預(yù)測(cè)結(jié)果;
[0092]
d2、根據(jù)第一預(yù)測(cè)結(jié)果和肺癌免疫療效標(biāo)簽確定卷積神經(jīng)網(wǎng)絡(luò)的損失值;
[0093]
d3、根據(jù)損失值通過反向傳播算法更新卷積神經(jīng)網(wǎng)絡(luò)的參數(shù);
[0094]
d4、當(dāng)損失值達(dá)到預(yù)設(shè)的第二閾值或迭代次數(shù)達(dá)到預(yù)設(shè)的第三閾值,停止訓(xùn)練,得到訓(xùn)練好的肺癌免疫療效預(yù)測(cè)模型。
[0095]
具體地,本發(fā)明實(shí)施例的肺癌免疫療效預(yù)測(cè)模型可基于卷積神經(jīng)網(wǎng)絡(luò)搭建,包括一個(gè)一維卷積層,卷積核為16,卷積核為128,步長(zhǎng)為1。首先,對(duì)輸入信息進(jìn)行嵌入式處理;其次,使用了tanh激活函數(shù),然后使用maxpooling方法來降低維度。首次降維后,對(duì)矢量進(jìn)行一維卷積計(jì)算,卷積核為32,空間域?yàn)?。然后進(jìn)行批量歸一化。采用adam作為深層神經(jīng)網(wǎng)絡(luò)優(yōu)化梯度下降法,以sgd作為學(xué)習(xí)方法,學(xué)習(xí)率為001。在此基礎(chǔ)上,本發(fā)明實(shí)施例使用了高密度的全連接網(wǎng)絡(luò)和軟最大激活函數(shù)的輸出結(jié)果作為預(yù)測(cè)結(jié)果。
[0096][0097]
上述公式中的求和部分等價(jià)于求解一個(gè)互相關(guān)函數(shù),其中b是偏差,z
l
和z
l+1
分別表示層l+1的卷積輸入和輸出,也稱為特征映射;l
l+1
表示zl+1的維數(shù);k表示通道數(shù);f、s0和
p分別表示卷積內(nèi)核大小、卷積和填充層數(shù)。
[0098]
將訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)輸入到初始化后的肺癌免疫療效預(yù)測(cè)模型后,可以得到模型輸出的預(yù)測(cè)結(jié)果,可以用該預(yù)測(cè)結(jié)果和前述的肺癌免疫療效標(biāo)簽來評(píng)估肺癌免疫療效預(yù)測(cè)模型的準(zhǔn)確性,從而對(duì)模型的參數(shù)進(jìn)行更新。對(duì)于肺癌免疫療效預(yù)測(cè)模型來說,模型預(yù)測(cè)結(jié)果的準(zhǔn)確性可以通過損失函數(shù)(loss function)來衡量,損失函數(shù)是定義在單個(gè)訓(xùn)練數(shù)據(jù)上的,用于衡量一個(gè)訓(xùn)練數(shù)據(jù)的預(yù)測(cè)誤差,具體是通過單個(gè)訓(xùn)練數(shù)據(jù)的標(biāo)簽和模型對(duì)該訓(xùn)練數(shù)據(jù)的預(yù)測(cè)結(jié)果確定該訓(xùn)練數(shù)據(jù)的損失值。而實(shí)際訓(xùn)練時(shí),一個(gè)訓(xùn)練數(shù)據(jù)集有很多訓(xùn)練數(shù)據(jù),因此一般采用代價(jià)函數(shù)(cost function)來衡量訓(xùn)練數(shù)據(jù)集的整體誤差,代價(jià)函數(shù)是定義在整個(gè)訓(xùn)練數(shù)據(jù)集上的,用于計(jì)算所有訓(xùn)練數(shù)據(jù)的預(yù)測(cè)誤差的平均值,能夠更好地衡量出模型的預(yù)測(cè)效果。對(duì)于一般的機(jī)器學(xué)習(xí)模型來說,基于前述的代價(jià)函數(shù),再加上衡量模型復(fù)雜度的正則項(xiàng)即可作為訓(xùn)練的目標(biāo)函數(shù),基于該目標(biāo)函數(shù)便能求出整個(gè)訓(xùn)練數(shù)據(jù)集的損失值。常用的損失函數(shù)種類有很多,例如0-1損失函數(shù)、平方損失函數(shù)、絕對(duì)損失函數(shù)、對(duì)數(shù)損失函數(shù)、交叉熵?fù)p失函數(shù)等均可以作為機(jī)器學(xué)習(xí)模型的損失函數(shù),在此不再一一闡述。本發(fā)明實(shí)施例中,可以從中任選一種損失函數(shù)來確定訓(xùn)練的損失值。基于訓(xùn)練的損失值,采用反向傳播算法對(duì)模型的參數(shù)進(jìn)行更新,迭代幾輪即可得到訓(xùn)練好的肺癌免疫療效預(yù)測(cè)模型。具體地迭代輪數(shù)可以預(yù)先設(shè)定,或者在測(cè)試集達(dá)到精度要求時(shí)認(rèn)為訓(xùn)練完成。
[0099]
s104、獲取待預(yù)測(cè)肺癌患者的第二snv數(shù)據(jù),并根據(jù)第二snv數(shù)據(jù)確定第二特征基因組,進(jìn)而將第二特征基因組輸入到肺癌免疫療效預(yù)測(cè)模型,得到待預(yù)測(cè)肺癌患者的肺癌免疫療效預(yù)測(cè)結(jié)果。
[0100]
進(jìn)一步作為可選的實(shí)施方式,獲取待預(yù)測(cè)肺癌患者的第二snv數(shù)據(jù),并根據(jù)第二snv數(shù)據(jù)確定第二特征基因組這一步驟,其具體包括:
[0101]
e1、從待預(yù)測(cè)肺癌患者的樣本測(cè)序數(shù)據(jù)中獲取第二snv特征集;
[0102]
e2、通過隨機(jī)森林算法對(duì)第二snv特征集進(jìn)行特征選擇得到多個(gè)第二突變基因,并根據(jù)第二突變基因生成第二特征基因組。
[0103]
具體地,獲取待預(yù)測(cè)肺癌患者的第二snv數(shù)據(jù)以及提取第二特征基因組的方法與前述獲取第一snv數(shù)據(jù)的方法相類似,在此不作贅述。得到第二特征基因組后,輸入前述訓(xùn)練的到的肺癌免疫療效預(yù)測(cè)模型即可得到待預(yù)測(cè)肺癌患者的肺癌免疫療效預(yù)測(cè)結(jié)果。
[0104]
以上對(duì)本發(fā)明實(shí)施例的方法步驟進(jìn)行了說明。可以理解的是,本發(fā)明實(shí)施例通過隨機(jī)森林算法對(duì)snv特征集進(jìn)行特征選擇可以提取出與icb反應(yīng)高度相關(guān)的突變基因,然后根據(jù)這些突變基因生成特征基因組用于訓(xùn)練肺癌免疫療效預(yù)測(cè)模型,充分利用了snv突變基因與肺癌免疫療效的相關(guān)性,提高了肺癌免疫療效預(yù)測(cè)的準(zhǔn)確性和可靠性。
[0105]
參照?qǐng)D2,本發(fā)明實(shí)施例提供了一種基于基因突變的肺癌免疫療效預(yù)測(cè)系統(tǒng),包括:
[0106]
snv特征集獲取模塊,用于從非小細(xì)胞肺癌患者的樣本測(cè)序數(shù)據(jù)中獲取第一snv特征集;
[0107]
特征基因組生成模塊,用于通過隨機(jī)森林算法對(duì)第一snv特征集進(jìn)行特征選擇得到多個(gè)第一突變基因,并根據(jù)第一突變基因生成第一特征基因組;
[0108]
模型訓(xùn)練模塊,用于根據(jù)第一特征基因組構(gòu)建訓(xùn)練樣本集,并將訓(xùn)練樣本集輸入到預(yù)先構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò),得到訓(xùn)練好的肺癌免疫療效預(yù)測(cè)模型;
[0109]
模型預(yù)測(cè)模塊,用于獲取待預(yù)測(cè)肺癌患者的第二snv數(shù)據(jù),并根據(jù)第二snv數(shù)據(jù)確定第二特征基因組,進(jìn)而將第二特征基因組輸入到肺癌免疫療效預(yù)測(cè)模型,得到待預(yù)測(cè)肺癌患者的肺癌免疫療效預(yù)測(cè)結(jié)果。
[0110]
上述方法實(shí)施例中的內(nèi)容均適用于本系統(tǒng)實(shí)施例中,本系統(tǒng)實(shí)施例所具體實(shí)現(xiàn)的功能與上述方法實(shí)施例相同,并且達(dá)到的有益效果與上述方法實(shí)施例所達(dá)到的有益效果也相同。
[0111]
參照?qǐng)D3,本發(fā)明實(shí)施例提供了一種基于基因突變的肺癌免疫療效預(yù)測(cè)裝置,包括:
[0112]
至少一個(gè)處理器;
[0113]
至少一個(gè)存儲(chǔ)器,用于存儲(chǔ)至少一個(gè)程序;
[0114]
當(dāng)上述至少一個(gè)程序被上述至少一個(gè)處理器執(zhí)行時(shí),使得上述至少一個(gè)處理器實(shí)現(xiàn)上述的一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法。
[0115]
上述方法實(shí)施例中的內(nèi)容均適用于本裝置實(shí)施例中,本裝置實(shí)施例所具體實(shí)現(xiàn)的功能與上述方法實(shí)施例相同,并且達(dá)到的有益效果與上述方法實(shí)施例所達(dá)到的有益效果也相同。
[0116]
本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中存儲(chǔ)有處理器可執(zhí)行的程序,該處理器可執(zhí)行的程序在由處理器執(zhí)行時(shí)用于執(zhí)行上述一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法。
[0117]
本發(fā)明實(shí)施例的一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),可執(zhí)行本發(fā)明方法實(shí)施例所提供的一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法,可執(zhí)行方法實(shí)施例的任意組合實(shí)施步驟,具備該方法相應(yīng)的功能和有益效果。
[0118]
本發(fā)明實(shí)施例還公開了一種計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)程序,該計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)程序包括計(jì)算機(jī)指令,該計(jì)算機(jī)指令存儲(chǔ)在計(jì)算機(jī)可讀存介質(zhì)中。計(jì)算機(jī)設(shè)備的處理器可以從計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)讀取該計(jì)算機(jī)指令,處理器執(zhí)行該計(jì)算機(jī)指令,使得該計(jì)算機(jī)設(shè)備執(zhí)行圖1所示的方法。
[0119]
在一些可選擇的實(shí)施例中,在方框圖中提到的功能/操作可以不按照操作示圖提到的順序發(fā)生。例如,取決于所涉及的功能/操作,連續(xù)示出的兩個(gè)方框?qū)嶋H上可以被大體上同時(shí)地執(zhí)行或上述方框有時(shí)能以相反順序被執(zhí)行。此外,在本發(fā)明的流程圖中所呈現(xiàn)和描述的實(shí)施例以示例的方式被提供,目的在于提供對(duì)技術(shù)更全面的理解。所公開的方法不限于本文所呈現(xiàn)的操作和邏輯流程。可選擇的實(shí)施例是可預(yù)期的,其中各種操作的順序被改變以及其中被描述為較大操作的一部分的子操作被獨(dú)立地執(zhí)行。
[0120]
此外,雖然在功能性模塊的背景下描述了本發(fā)明,但應(yīng)當(dāng)理解的是,除非另有相反說明,上述的功能和/或特征中的一個(gè)或多個(gè)可以被集成在單個(gè)物理裝置和/或軟件模塊中,或者一個(gè)或多個(gè)功能和/或特征可以在單獨(dú)的物理裝置或軟件模塊中被實(shí)現(xiàn)。還可以理解的是,有關(guān)每個(gè)模塊的實(shí)際實(shí)現(xiàn)的詳細(xì)討論對(duì)于理解本發(fā)明是不必要的。更確切地說,考慮到在本文中公開的裝置中各種功能模塊的屬性、功能和內(nèi)部關(guān)系的情況下,在工程師的常規(guī)技術(shù)內(nèi)將會(huì)了解該模塊的實(shí)際實(shí)現(xiàn)。因此,本領(lǐng)域技術(shù)人員運(yùn)用普通技術(shù)就能夠在無需過度試驗(yàn)的情況下實(shí)現(xiàn)在權(quán)利要求書中所闡明的本發(fā)明。還可以理解的是,所公開的特定概念僅僅是說明性的,并不意在限制本發(fā)明的范圍,本發(fā)明的范圍由所附權(quán)利要求書及
其等同方案的全部范圍來決定。
[0121]
上述功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例上述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤、移動(dòng)硬盤、只讀存儲(chǔ)器(rom,read-only memory)、隨機(jī)存取存儲(chǔ)器(ram,random access memory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
[0122]
在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認(rèn)為是用于實(shí)現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實(shí)現(xiàn)在任何計(jì)算機(jī)可讀介質(zhì)中,以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備(如基于計(jì)算機(jī)的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備取指令并執(zhí)行指令的系統(tǒng))使用,或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用。就本說明書而言,“計(jì)算機(jī)可讀介質(zhì)”可以是任何可以包含、存儲(chǔ)、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用的裝置。
[0123]
計(jì)算機(jī)可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下:具有一個(gè)或多個(gè)布線的電連接部(電子裝置),便攜式計(jì)算機(jī)盤盒(磁裝置),隨機(jī)存取存儲(chǔ)器(ram),只讀存儲(chǔ)器(rom),可擦除可編輯只讀存儲(chǔ)器(eprom或閃速存儲(chǔ)器),光纖裝置,以及便攜式光盤只讀存儲(chǔ)器(cdrom)。另外,計(jì)算機(jī)可讀介質(zhì)甚至可以是可在其上打印上述程序的紙或其他合適的介質(zhì),因?yàn)榭梢岳缤ㄟ^對(duì)紙或其他介質(zhì)進(jìn)行光學(xué)掃描,接著進(jìn)行編輯、解譯或必要時(shí)以其他合適方式進(jìn)行處理來以電子方式獲得上述程序,然后將其存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)器中。
[0124]
應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實(shí)現(xiàn)。在上述實(shí)施方式中,多個(gè)步驟或方法可以用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實(shí)現(xiàn)。例如,如果用硬件來實(shí)現(xiàn),和在另一實(shí)施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來實(shí)現(xiàn):具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(pga),現(xiàn)場(chǎng)可編程門陣列(fpga)等。
[0125]
在本說明書的上述描述中,參考術(shù)語(yǔ)“一個(gè)實(shí)施方式/實(shí)施例”、“另一實(shí)施方式/實(shí)施例”或“某些實(shí)施方式/實(shí)施例”等的描述意指結(jié)合實(shí)施方式或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施方式或示例中。在本說明書中,對(duì)上述術(shù)語(yǔ)的示意性表述不一定指的是相同的實(shí)施方式或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施方式或示例中以合適的方式結(jié)合。
[0126]
盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施方式,本領(lǐng)域的普通技術(shù)人員可以理解:在不脫離本發(fā)明的原理和宗旨的情況下可以對(duì)這些實(shí)施方式進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由權(quán)利要求及其等同物限定。
[0127]
以上是對(duì)本發(fā)明的較佳實(shí)施進(jìn)行了具體說明,但本發(fā)明并不限于上述實(shí)施例,熟悉本領(lǐng)域的技術(shù)人員在不違背本發(fā)明精神的前提下還可做作出種種的等同變形或替換,這些等同的變形或替換均包含在本技術(shù)權(quán)利要求所限定的范圍內(nèi)。

技術(shù)特征:


1.一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法,其特征在于,包括以下步驟:從非小細(xì)胞肺癌患者的樣本測(cè)序數(shù)據(jù)中獲取第一snv特征集;通過隨機(jī)森林算法對(duì)所述第一snv特征集進(jìn)行特征選擇得到多個(gè)第一突變基因,并根據(jù)所述第一突變基因生成第一特征基因組;根據(jù)所述第一特征基因組構(gòu)建訓(xùn)練樣本集,并將所述訓(xùn)練樣本集輸入到預(yù)先構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò),得到訓(xùn)練好的肺癌免疫療效預(yù)測(cè)模型;獲取待預(yù)測(cè)肺癌患者的第二snv數(shù)據(jù),并根據(jù)所述第二snv數(shù)據(jù)確定第二特征基因組,進(jìn)而將所述第二特征基因組輸入到所述肺癌免疫療效預(yù)測(cè)模型,得到所述待預(yù)測(cè)肺癌患者的肺癌免疫療效預(yù)測(cè)結(jié)果。2.根據(jù)權(quán)利要求1所述的一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法,其特征在于,所述從非小細(xì)胞肺癌患者的樣本測(cè)序數(shù)據(jù)中獲取第一snv特征集這一步驟,其具體包括:獲取預(yù)設(shè)的多個(gè)非小細(xì)胞肺癌患者的第一樣本,所述第一樣本為腫瘤樣本或血液樣本;對(duì)所述第一樣本進(jìn)行基因測(cè)序得到樣本測(cè)序數(shù)據(jù);將所述樣本測(cè)序數(shù)據(jù)與預(yù)設(shè)的人體參考基因組進(jìn)行比對(duì),確定所述第一樣本的snv特征位點(diǎn);根據(jù)所述snv特征位點(diǎn)確定所述第一snv特征集。3.根據(jù)權(quán)利要求2所述的一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法,其特征在于,所述通過隨機(jī)森林算法對(duì)所述第一snv特征集進(jìn)行特征選擇得到多個(gè)第一突變基因這一步驟,其具體包括:根據(jù)所述第一snv特征集構(gòu)建隨機(jī)森林,并通過所述第一snv特征集訓(xùn)練所述隨機(jī)森林的各個(gè)決策樹,進(jìn)而根據(jù)所述決策樹確定所述snv特征位點(diǎn)的特征重要性;根據(jù)所述特征重要性對(duì)所述snv特征位點(diǎn)進(jìn)行降序排序得到第一snv特征序列,并按照預(yù)設(shè)的剔除比例從所述第一snv特征序列中剔除排序值靠后的若干個(gè)snv特征位點(diǎn),得到第二snv特征序列;根據(jù)所述第二snv特征序列更新所述第一snv特征集,并返回根據(jù)所述第一snv特征集構(gòu)建隨機(jī)森林這一步驟,直至所述第一snv特征集中剩余的snv特征位點(diǎn)的數(shù)量達(dá)到預(yù)設(shè)的第一閾值,確定剩余的snv特征位點(diǎn)為所述第一突變基因。4.根據(jù)權(quán)利要求3所述的一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法,其特征在于,所述根據(jù)所述決策樹確定所述snv特征位點(diǎn)的特征重要性這一步驟,其具體包括:獲取所述第一snv特征集的袋外數(shù)據(jù),根據(jù)所述袋外數(shù)據(jù)計(jì)算得到所述決策樹的第一袋外數(shù)據(jù)誤差;對(duì)所述袋外數(shù)據(jù)的snv特征位點(diǎn)加入噪聲干擾得到干擾袋外數(shù)據(jù),并根據(jù)所述干擾袋外數(shù)據(jù)計(jì)算得到所述決策樹的第二袋外數(shù)據(jù)誤差;根據(jù)所述第一袋外數(shù)據(jù)誤差和所述第二袋外數(shù)據(jù)誤差確定所述snv特征位點(diǎn)的特征重要性。5.根據(jù)權(quán)利要求1所述的一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法,其特征在于,所述根據(jù)所述第一特征基因組構(gòu)建訓(xùn)練樣本集這一步驟,其具體包括:根據(jù)所述非小細(xì)胞肺癌患者的肺癌免疫療效觀測(cè)結(jié)果對(duì)所述第一特征基因組進(jìn)行標(biāo)
注,得到肺癌免疫療效標(biāo)簽;根據(jù)所述第一特征基因組和對(duì)應(yīng)的肺癌免疫療效標(biāo)簽構(gòu)建訓(xùn)練樣本集。6.根據(jù)權(quán)利要求5所述的一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法,其特征在于,所述將所述訓(xùn)練樣本集輸入到預(yù)先構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò),得到訓(xùn)練好的肺癌免疫療效預(yù)測(cè)模型這一步驟,其具體包括:將所述訓(xùn)練樣本集輸入到預(yù)先構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò),得到第一預(yù)測(cè)結(jié)果;根據(jù)所述第一預(yù)測(cè)結(jié)果和所述肺癌免疫療效標(biāo)簽確定所述卷積神經(jīng)網(wǎng)絡(luò)的損失值;根據(jù)所述損失值通過反向傳播算法更新所述卷積神經(jīng)網(wǎng)絡(luò)的參數(shù);當(dāng)損失值達(dá)到預(yù)設(shè)的第二閾值或迭代次數(shù)達(dá)到預(yù)設(shè)的第三閾值,停止訓(xùn)練,得到訓(xùn)練好的肺癌免疫療效預(yù)測(cè)模型。7.根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法,其特征在于,所述獲取待預(yù)測(cè)肺癌患者的第二snv數(shù)據(jù),并根據(jù)所述第二snv數(shù)據(jù)確定第二特征基因組這一步驟,其具體包括:從待預(yù)測(cè)肺癌患者的樣本測(cè)序數(shù)據(jù)中獲取第二snv特征集;通過隨機(jī)森林算法對(duì)所述第二snv特征集進(jìn)行特征選擇得到多個(gè)第二突變基因,并根據(jù)所述第二突變基因生成第二特征基因組。8.一種基于基因突變的肺癌免疫療效預(yù)測(cè)系統(tǒng),其特征在于,包括:snv特征集獲取模塊,用于從非小細(xì)胞肺癌患者的樣本測(cè)序數(shù)據(jù)中獲取第一snv特征集;特征基因組生成模塊,用于通過隨機(jī)森林算法對(duì)所述第一snv特征集進(jìn)行特征選擇得到多個(gè)第一突變基因,并根據(jù)所述第一突變基因生成第一特征基因組;模型訓(xùn)練模塊,用于根據(jù)所述第一特征基因組構(gòu)建訓(xùn)練樣本集,并將所述訓(xùn)練樣本集輸入到預(yù)先構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò),得到訓(xùn)練好的肺癌免疫療效預(yù)測(cè)模型;模型預(yù)測(cè)模塊,用于獲取待預(yù)測(cè)肺癌患者的第二snv數(shù)據(jù),并根據(jù)所述第二snv數(shù)據(jù)確定第二特征基因組,進(jìn)而將所述第二特征基因組輸入到所述肺癌免疫療效預(yù)測(cè)模型,得到所述待預(yù)測(cè)肺癌患者的肺癌免疫療效預(yù)測(cè)結(jié)果。9.一種基于基因突變的肺癌免疫療效預(yù)測(cè)裝置,其特征在于,包括:至少一個(gè)處理器;至少一個(gè)存儲(chǔ)器,用于存儲(chǔ)至少一個(gè)程序;當(dāng)所述至少一個(gè)程序被所述至少一個(gè)處理器執(zhí)行,使得所述至少一個(gè)處理器實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法。10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中存儲(chǔ)有處理器可執(zhí)行的程序,其特征在于,所述處理器可執(zhí)行的程序在由處理器執(zhí)行時(shí)用于執(zhí)行如權(quán)利要求1至7中任一項(xiàng)所述的一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法。

技術(shù)總結(jié)


本發(fā)明公開了一種基于基因突變的肺癌免疫療效預(yù)測(cè)方法、系統(tǒng)及存儲(chǔ)介質(zhì),方法包括:從非小細(xì)胞肺癌患者的樣本測(cè)序數(shù)據(jù)中獲取第一SV特征集;通過隨機(jī)森林算法對(duì)第一SV特征集進(jìn)行特征選擇得到多個(gè)第一突變基因,并根據(jù)第一突變基因生成第一特征基因組;根據(jù)第一特征基因組構(gòu)建訓(xùn)練樣本集,并將訓(xùn)練樣本集輸入到預(yù)先構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò),得到訓(xùn)練好的肺癌免疫療效預(yù)測(cè)模型;獲取待預(yù)測(cè)肺癌患者的第二SV數(shù)據(jù),并根據(jù)第二SV數(shù)據(jù)確定第二特征基因組,進(jìn)而將第二特征基因組輸入到肺癌免疫療效預(yù)測(cè)模型,得到待預(yù)測(cè)肺癌患者的肺癌免疫療效預(yù)測(cè)結(jié)果。本發(fā)明提高了肺癌免疫療效預(yù)測(cè)的準(zhǔn)確性和可靠性,可廣泛應(yīng)用于人工智能技術(shù)領(lǐng)域。域。域。


技術(shù)研發(fā)人員:

彭杰 鄒丹

受保護(hù)的技術(shù)使用者:

貴州醫(yī)科大學(xué)第二附屬醫(yī)院

技術(shù)研發(fā)日:

2022.09.20

技術(shù)公布日:

2023/1/17


文章投稿或轉(zhuǎn)載聲明

本文鏈接:http://m.newhan.cn/zhuanli/patent-1-82717-0.html

來源:專利查詢檢索下載-實(shí)用文體寫作網(wǎng)版權(quán)所有,轉(zhuǎn)載請(qǐng)保留出處。本站文章發(fā)布于 2023-01-27 18:27:05

發(fā)表評(píng)論

驗(yàn)證碼:
用戶名: 密碼: 匿名發(fā)表
評(píng)論列表 (有 條評(píng)論
2人圍觀
參與討論