本文作者:kaifamei

一種用于非小細胞肺癌分型診斷的基因轉錄本標記物組合及分型診斷裝置的制作方法

更新時間:2025-12-27 13:15:16 0條評論

一種用于非小細胞肺癌分型診斷的基因轉錄本標記物組合及分型診斷裝置的制作方法



1.本發明屬于生物技術領域,具體涉及一種用于非小細胞肺癌分型診斷的基因轉錄本標記物組合及分型診斷裝置。


背景技術:



2.肺癌是當今世界最常見的惡性腫瘤之一,且是致死亡人數最多的腫瘤。肺癌可以分為小細胞肺癌和非小細胞肺癌,分別占比15%和85%。和其他惡性腫瘤類似,肺癌的生存期同其分期密切相關。非小細胞肺癌是由表觀遺傳改變引起的異質性疾病,具有高度腫瘤異質性。腫瘤異質性是癌癥進展和耐藥的重要原因。現有肺癌的方式選擇的主要依據是病理分型及分期,其中包括小細胞肺癌和非小細胞肺癌,肺腺癌(adc)和肺鱗癌(scc)等。臨床上對肺癌作出診斷時,明確其病理分型對制訂方案、分析預后非常重要。不同組織亞型的肺癌,其相應的策略也有所差異。對于非小細胞肺癌來說,腺癌的腫瘤細胞增殖速度比較快,通常在早期就會出現病灶轉移,對化療藥物更敏感,而對放射效果欠佳,因此常常選擇手術、化療、免疫、靶向等方式。而鱗癌的腫瘤細胞生長稍慢一些,早期以局部侵犯為主,遠處轉移發生比較晚,所以鱗癌對放射的敏感性更高,一般會采用手術、放射、免疫等方式。
3.目前對肺癌的病理分型主要依靠組織形態學及免疫組化的方法。傳統的病理組織學方法對病理技術員和病理醫師的要求較高,進行結果判讀時也存在一定的主觀性。因此,開發一種客觀、準確的基因標記物組合應用于非小細胞肺癌的組織分型診斷具有十分重要的意義。因此,針對肺癌分型診斷應用,本發明首次公開了一種用于非小細胞肺癌分型診斷的基因轉錄本標記物組合及分型診斷裝置。


技術實現要素:



4.為了填補現有技術的空白,本發明的目的在于提供一種用于非小細胞肺癌分型診斷的基因轉錄本標記物組合及分型診斷裝置。
5.本發明解決上述技術問題的技術方案如下:
6.本發明的第一方面提供了一種基因轉錄本標記物組合,包括如下33個基因的轉錄本:loc642587、s1pr5、bnc1、atp1b3、lass3、lonrf3、vsnl1、trim29、hnf1b、dsg3、clca2、tmprss11a、krt17、golt1a、dlx5、e2f7、col4a5、slc39a2、tesc、fat2、calml3、krt74、pvrl1、prrg3、perp、c4bpb、fzd7、dmgdh、ocln、arhgef38、krt5、cgn、lrrc66;所述標記物組合應用于肺腺癌、肺鱗癌的組織分型診斷;
7.進一步的,所述分型診斷的樣本類型為非小細胞肺癌組織rna;其組織分型診斷的準確度為96.64%。
8.本發明的第二方面提供了一種基于上述基因轉錄本標記物組合制備的肺癌分型診斷裝置,所述裝置包括檢測模塊和預測模塊;具體地,通過輸入所述標記物組合轉錄本的
表達水平,即可對非小細胞肺癌組織是肺腺癌還是肺腺癌進行準確預測;
9.進一步的,所述檢測模塊包括總rna提取試劑、逆轉錄試劑、建庫試劑或測序試劑;
10.進一步的,所述檢測具體為從肺癌組織樣本中提取總rna,建庫測序,獲得上述33個基因轉錄本count數;更具體地,所述33個基因轉錄本count數的獲取包括下機數據質控、低質量數據過濾、參考基因組比對、計算count數等步驟;
11.進一步的,所述預測具體為將得到的基因轉錄本count數,輸入構建好的隨機森林分類器中,得到預測結果;
12.進一步的,所述預測結果為0或者1,其中0表示樣本預測結果為肺腺癌,1表示樣本預測結果為肺鱗癌;
13.進一步的,所述分類器的構建方法如下:
14.(1)獲取非小細胞肺癌組織,根據其組織分型分為adc組和scc組;
15.(2)提取腫瘤組織總rna,進行逆轉錄,逆轉錄為cdna;
16.(3)進行文庫構建;
17.(4)測序上機,獲得各轉錄本的reads數;
18.(5)進行下機數據質控、數據過濾、數據轉換后,得到每個轉錄本的count數,并將各轉錄本注釋到人類基因組上;
19.(6)使用deseq2軟件包(基于r語言)進行差異轉錄本分析;
20.(7)根據設定的log2foldchange和padjust閾值,進行差異轉錄本過濾,初步得到具有特別顯著性差異的轉錄本,進入后續分析;
21.(8)將步驟(7)中得到的轉錄本count數作為自變量,是否為肺鱗癌組織作為因變量(adc用數字0表示,scc用數字1表示),使用scikit-learn軟件包(基于python)中的隨機森林模型構建分類器,進行模型的訓練后,得到分類模型;再根據分類模型對待測樣本進行組織分型的預測;
22.(9)根據步驟(8)中得到的分類模型中各基因的權重系數進行排序,進一步對納入模型中的基因數量進行探索,最終得到包含33個基因的優選組合;
23.(10)以包含33個基因構建隨機森林分類器并檢驗其效果;
24.進一步的,各基因轉錄本分析時,參考基因組版本為hg19版;
25.進一步的,所述隨機森林分類器中33個基因的權重系數如下:
26.基因名權重系數loc6425870.0071s1pr50.0764bnc10.0328atp1b30.0170lass30.1734lonrf30.0117vsnl10.0413trim290.0096hnf1b0.0164dsg30.2121
clca20.0042tmprss11a0.0035krt170.0050golt1a0.0087dlx50.0073e2f70.0094col4a50.0057slc39a20.0050tesc0.0053fat20.0058calml30.0401krt740.0681pvrl10.0368prrg30.0064perp0.0081c4bpb0.0058fzd70.0023dmgdh0.0022ocln0.0046arhgef380.0111krt50.1429cgn0.0105lrrc660.0034
27.進一步的,所述權重系數的絕對值越大,表明該基因在隨機森林分類器中的作用越重要;
28.其中,根據上述權重系數得到的分類器,在訓練集和測試集的預測準確度可達到99.82%和96.64%。
29.本發明的有益效果在于:
30.本發明首次提供了一種用于非小細胞肺癌分型診斷的基因轉錄本標記物組合及分型診斷裝置,該33個基因轉錄本組合應用于肺癌分型診斷中,在訓練集和測試集的預測準確度可達到99.82%和96.64%。本發明提供的肺癌分型診斷裝置,通過輸入上述基因轉錄本的表達水平,可對肺組織是否為肺癌進行準確診斷。同時本發明基于上述基因轉錄本組合開發了一種診斷模型,可有效診斷出肺癌組織,具有高靈敏度、特異度、檢測過程客觀等優點。
附圖說明
31.圖1顯示為納入分析的835例非小細胞肺癌樣本的組間主成分分析(pca)圖;
32.圖2顯示為差異轉錄本分析的ma-plot(探索差異點的分布情況);
33.圖3顯示為差異化轉錄本結果的火山圖;
34.圖4顯示為初篩得到的1156個差異轉錄本的表達水平熱圖;
35.圖5顯示為納入1156個差異轉錄本的rf模型的學習曲線以及最優基因組合數目的確認;
36.圖6顯示為優選的33個基因轉錄本組合在測試集預測中的roc曲線及曲線下面積(auc);
37.圖7顯示為優選的33個基因轉錄本組合在不同樣本間的相對表達聚類熱圖。
具體實施方式
38.以下結合實例說明本發明,但不限制本發明。在本領域內,技術人員對本發明所做的簡單替換或改進均屬于本發明所保護的技術方案內。
39.實施例1:
40.本發明提供了從肺癌組織中提取rna,檢測其中33個基因轉錄本的方法,通過本發明所述的分型診斷裝置,可以很準確地預測肺癌組織的病理學分型。
41.非小細胞肺癌組織來源于肺癌患者手術中的腫瘤組織835例,其中adc樣本為454例、scc樣本為371例。
42.提取樣本總rna,其步驟包括:組織切片脫蠟、水化、組織刮取、組織裂解、過離心柱、離心柱清洗、rna洗脫等步驟。
43.對提取到的rna,使用紫外分光光度計進行rna總量和純度的測定,保證rna符合實驗室質量控制要求。
44.將提取后的rna進行逆轉錄處理,獲得cdna。
45.使用本發明提供的文庫構建試劑進行建庫,實驗步驟按照廠家說明書進行,建庫后進行文庫質檢。
46.文庫測序上機,進行下機數據質控,將低質量數據過濾,并進行數據轉換后,得到每個轉錄本的count數,并將各轉錄本與人類基因組上(版本為hg19)進行比對。通過使用deseq2軟件包(基于r語言)進行差異轉錄本分析,獲得差異轉錄本。進一步地,根據設定的log2foldchange和padjust閾值,進行差異轉錄本過濾,初步得到1156個在兩組樣本間具有特別顯著性差異的轉錄本,結果如圖3、圖4所示,進入后續分析。
47.將納入分析的835例肺癌樣本(adc樣本為454例、scc樣本為371例)按照7:3的比例拆分為訓練集、測試集樣本。將上述1156個轉錄本count數作為自變量,是否為肺鱗癌組織作為因變量(adc用數字0表示,scc用數字1表示),使用scikit-learn軟件包(基于python)中的隨機森林(random forest,rf)模型構建分類器,使用訓練集數據進行模型的訓練后,得到分類模型;再根據分類模型對測試集樣本進行組織分型的預測,并與實際的分組情況進行比較,評估模型的準確度。
48.根據得到的分類模型中各基因的權重系數進行排序,進一步對納入模型中的基因數量進行探索,目的是用最少的基因數量獲得較佳的分類效果,最終得到包含33個基因的優選的基因組合,更多數量的基因組合并不能增加分類模型的效果,如圖5所示。
49.以包含優選的33個基因構建rf分類器,構建完成后檢驗分類器效果,在訓練集和測試集的預測準確度可達到99.82%和96.64%,roc曲線如圖6所示,其曲線下面積(auc)為0.9664。
50.本發明所述的分類器,各基因的權重系數如表1所示。
51.表1包含優選的33個基因的rf分類器中各基因的權重系數
[0052][0053][0054]
在實際使用中,只需要將待測的非小細胞肺癌組織按照本發明所述的流程,檢測樣本中33個基因轉錄本組合的count值,輸入到本發明提供的rf分類模型中,即可得到該肺癌組織的分型的預測結果,該分類模型輸出的預測結果為0或者1,其中0表示該組織預測結果為肺腺癌,1表示該組織預測結果為肺鱗癌。
[0055]
以上所述的僅是本發明的優選實施方式,應當指出,對于本領域的普通技術人員來說,在不脫離本發明創造構思的前提下,還可以做出若干變形和改進,這些都屬于本發明的保護范圍。

技術特征:


1.一種基因轉錄本標記物組合,其特征在于,包括如下33個基因的轉錄本:loc642587、s1pr5、bnc1、atp1b3、lass3、lonrf3、vsnl1、trim29、hnf1b、dsg3、clca2、tmprss11a、krt17、golt1a、dlx5、e2f7、col4a5、slc39a2、tesc、fat2、calml3、krt74、pvrl1、prrg3、perp、c4bpb、fzd7、dmgdh、ocln、arhgef38、krt5、cgn、lrrc66;所述標記物組合應用于肺腺癌、肺鱗癌的組織分型診斷。2.根據權利要求1所述的基因轉錄本標記物組合,其特征在于,所述分型診斷的樣本類型為非小細胞肺癌組織rna。3.一種基于權利要求1或2任一項所述的基因轉錄本標記物組合制備的肺癌分型診斷裝置,其特征在于,所述裝置包括檢測模塊和預測模塊。4.根據權利要求3所述的肺癌分型診斷裝置,其特征在于,所述檢測模塊包括總rna提取試劑、逆轉錄試劑、建庫試劑或測序試劑。5.根據權利要求3所述的肺癌分型診斷裝置,其特征在于,所述檢測具體為從肺癌組織樣本中提取總rna,建庫測序,獲得如權利要求1所述的基因轉錄本count數。6.根據權利要求5所述的肺癌分型診斷裝置,其特征在于,所述預測具體為將得到的基因轉錄本count數,輸入構建好的隨機森林分類器中,得到預測結果。7.根據權利要求6所述的肺癌分型診斷裝置,其特征在于,所述預測結果為0或者1,其中0表示樣本預測結果為肺腺癌,1表示樣本預測結果為肺鱗癌。8.根據權利要求6所述的肺癌分型診斷裝置,其特征在于,所述分類器的構建方法如下:(1)獲取非小細胞肺癌組織,根據其組織分型分為adc組和scc組;(2)提取腫瘤組織總rna,進行逆轉錄,逆轉錄為cdna;(3)進行文庫構建;(4)測序上機,獲得各轉錄本的reads數;(5)進行下機數據質控、數據過濾、數據轉換后,得到每個轉錄本的count數,并將各轉錄本注釋到人類基因組上;(6)使用deseq2軟件包(基于r語言)進行差異轉錄本分析;(7)根據設定的log2foldchange和padjust閾值,進行差異轉錄本過濾,初步得到具有特別顯著性差異的轉錄本,進入后續分析;(8)將步驟(7)中得到的轉錄本count數作為自變量,是否為肺鱗癌組織作為因變量(adc用數字0表示,scc用數字1表示),使用scikit-learn軟件包(基于python)中的隨機森林模型構建分類器,進行模型的訓練后,得到分類模型;再根據分類模型對待測樣本進行組織分型的預測;(9)根據步驟(8)中得到的分類模型中各基因的權重系數進行排序,進一步對納入模型中的基因數量進行探索,最終得到包含33個基因的優選組合;(10)以包含33個基因構建隨機森林分類器并檢驗其效果。9.根據權利要求8所述的肺癌分型診斷裝置,其特征在于,所述隨機森林分類器中33個基因的權重系數如下:
10.根據權利要求9所述的肺癌分型診斷裝置,其特征在于,所述權重系數的絕對值越大,表明該基因在隨機森林分類器中的作用越重要。

技術總結


本發明首次提供了一種用于非小細胞肺癌分型診斷的基因轉錄本標記物組合及分型診斷裝置,該組合包含33個基因,分別是:LOC642587、S1PR5、BC1、ATP1B3、LASS3、LORF3、VSL1、TRIM29、HF1B、DSG3、CLCA2、TMPRSS11A、KRT17、GOLT1A、DLX5、E2F7、COL4A5、SLC39A2、TESC、FAT2、CALML3、KRT74、PVRL1、PRRG3、PERP、C4BPB、FZD7、DMGDH、OCL、ARHGEF38、KRT5、CG、LRRC66;該標記物組合可應用于肺腺癌、肺鱗癌組織分型的診斷中,診斷準確度可達96.64%。本發明提供的肺腺癌、肺鱗癌組織分型診斷裝置,通過輸入上述33個基因RAseq的轉錄本count數,可對肺癌標本類型進行準確診斷;與傳統病理形態學診斷相比,本發明提供的基因轉錄本標記物組合及分型診斷裝置,具有準確度高、檢測通量大、人為干擾低等優點,具有廣泛的臨床應用及推廣價值。值。值。


技術研發人員:

李萬帥 湯麗麗 文詩語

受保護的技術使用者:

常州國藥醫學檢驗實驗室有限公司

技術研發日:

2022.11.11

技術公布日:

2023/1/13


文章投稿或轉載聲明

本文鏈接:http://m.newhan.cn/zhuanli/patent-1-84908-0.html

來源:專利查詢檢索下載-實用文體寫作網版權所有,轉載請保留出處。本站文章發布于 2023-01-28 15:50:45

發表評論

驗證碼:
用戶名: 密碼: 匿名發表
評論列表 (有 條評論
2人圍觀
參與討論