一種墨水分類和溯源的方法與流程
1.本發(fā)明涉及司法筆跡鑒定的技術(shù)領(lǐng)域,特別是涉及一種墨水分類和溯源的方法。
背景技術(shù):
2.在司法筆跡鑒定中,墨水分析是法庭科學(xué)領(lǐng)域的重要工作之一,通常包含區(qū)分兩種或多種墨水是否相同,以及預(yù)測墨水的來源,如品牌、型號、種類等。針對區(qū)別兩種或幾種墨水及區(qū)分墨水是否相同的技術(shù)任務(wù)學(xué)術(shù)界的研究較多,其中質(zhì)譜分辨率高、定性能力好,是一種有效的墨水區(qū)分方法,主要解決的是兩種或多種墨水之間的鑒別問題,主要是墨水的分類。墨水的質(zhì)譜成像技術(shù)能夠在同一視場內(nèi),對不同墨水的質(zhì)譜或處理后的質(zhì)譜進(jìn)行分析和可視化,在墨水分析中具有獨(dú)特的優(yōu)勢。目前的研究具有局限性,即墨水需要在同一載體上小區(qū)域進(jìn)行一次性檢測后成像,尚未有直接應(yīng)用于同一載體不同區(qū)域、不同載體(分離載體)等不能一次性檢測成像的情況。
3.而當(dāng)前墨水的溯源研究較少,尚不能滿足法庭科學(xué)墨水溯源的實際需求。預(yù)測墨水的來源(如品牌、型號、種類等)任務(wù)需要建立一個龐大的數(shù)據(jù)庫,采用質(zhì)譜法和質(zhì)譜技術(shù)是墨水分析的有效手段,但質(zhì)譜數(shù)據(jù)是一種高維數(shù)組,在海量數(shù)據(jù)庫種檢索和匹配的分析工作量巨大,無論人工視覺觀察判斷還是計算機(jī)自動化輔助判斷難度都很大。
4.墨水溯源需要一個龐大的墨水?dāng)?shù)據(jù)庫和高效的溯源方法,當(dāng)前的技術(shù)方法普遍缺少一個高質(zhì)量的墨水?dāng)?shù)據(jù)庫作為背景數(shù)據(jù),沒有對同一墨水和不同墨水質(zhì)譜數(shù)據(jù)的變化規(guī)律進(jìn)行系統(tǒng)的研究,因此解決這項任務(wù)的技術(shù)還不夠成熟。在法庭科學(xué)實踐中,無法有效提供墨水的溯源信息,在應(yīng)用上存在嚴(yán)重的瓶頸問題。
技術(shù)實現(xiàn)要素:
5.本發(fā)明的目的是提供一種墨水分類和溯源的方法,能夠?qū)崿F(xiàn)對海量高維質(zhì)譜數(shù)據(jù)進(jìn)行降維和可視化,質(zhì)譜成像是一種快速、直觀的墨水分類方法,具有高度的溯源準(zhǔn)確性,實現(xiàn)科學(xué)、準(zhǔn)確的判斷墨水的來源。
6.為實現(xiàn)上述技術(shù)目的,本發(fā)明提供一種墨水分類和溯源的方法,其包括:建立一個全彩噴墨打印墨水質(zhì)譜數(shù)據(jù)庫,其中:所述墨水質(zhì)譜數(shù)據(jù)庫為通過實時直接分析質(zhì)譜方法在大氣壓下對物質(zhì)的原始狀態(tài)進(jìn)行快速和直接的分析獲得;通過所述實時直接分析質(zhì)譜方法獲得待溯源樣品的墨水質(zhì)譜數(shù)據(jù);所述墨水質(zhì)譜數(shù)據(jù)庫和所述樣品墨水質(zhì)譜數(shù)據(jù)均是按照質(zhì)譜圖像上的每個像素點為最小數(shù)據(jù)單元,將所述墨水質(zhì)譜數(shù)據(jù)庫和所述樣品墨水質(zhì)譜數(shù)據(jù)一起進(jìn)行質(zhì)譜對齊和標(biāo)準(zhǔn)化預(yù)處理后形成質(zhì)譜峰矩陣;對所述質(zhì)譜峰矩陣進(jìn)行降維處理,將所述降維處理后的數(shù)據(jù)作為質(zhì)譜特征數(shù)據(jù);采用質(zhì)譜成像技術(shù)對所述質(zhì)譜特征數(shù)據(jù)進(jìn)行可視化后并進(jìn)行如下方法分類和溯源:直接觀察質(zhì)譜成像圖上墨水之間的不同,以作為法庭科學(xué)墨水分析中一種快速、直觀的分類方法;對于質(zhì)譜成像未發(fā)現(xiàn)差異的墨水,進(jìn)一步使用卷積神經(jīng)網(wǎng)絡(luò)模型以對所述待溯源樣品中的墨水品牌和型號分別進(jìn)行分類和溯源。
7.本發(fā)明提供一種墨水溯源方法,其創(chuàng)造基于一個全彩(黑、品紅、黃、藍(lán))噴墨打印墨水的實時直接分析質(zhì)譜(dart-ms)數(shù)據(jù)庫,同時對樣品墨水建立樣品墨水質(zhì)譜數(shù)據(jù),對兩數(shù)據(jù)利用降維技術(shù)幫助對海量高維質(zhì)譜數(shù)據(jù)進(jìn)行降維,質(zhì)譜成像技術(shù)對降維數(shù)據(jù)進(jìn)行可視化,直接呈現(xiàn)墨水之間的不同,可作為法庭科學(xué)墨水分析中一種快速、直觀的分類方法;對于質(zhì)譜成像未發(fā)現(xiàn)差異的墨水,進(jìn)一步使用卷積神經(jīng)網(wǎng)絡(luò)模型對所述質(zhì)譜特征數(shù)據(jù)進(jìn)行分類和溯源,對同一墨水、不同墨水、墨水品牌和型號質(zhì)譜的變化進(jìn)行了系統(tǒng)的研究,以質(zhì)譜數(shù)據(jù)庫為背景信息,為科學(xué)、準(zhǔn)確的判斷墨水的來源提供了堅實的基礎(chǔ)。
8.作為進(jìn)一步的改進(jìn),所述待溯源樣品包括:背景材料和所述背景材料上的墨水材料。
9.作為進(jìn)一步的改進(jìn),所述墨水材料在所述背景材料上呈現(xiàn)為文字、線條、塊或圖案中的至少一種形式。
10.作為進(jìn)一步的改進(jìn),所述樣品墨水質(zhì)譜數(shù)據(jù)的獲得過程為:在相同條件和相同質(zhì)譜方法下分別獲得:包括所述背景材料和所述墨水材料在內(nèi)的整體樣品質(zhì)譜數(shù)據(jù),和排除所述墨水材料而獲得的背景材料質(zhì)譜數(shù)據(jù);在所述整體樣品質(zhì)譜數(shù)據(jù)中扣除背景材料質(zhì)譜數(shù)據(jù),以獲得所述樣品墨水質(zhì)譜數(shù)據(jù)。
11.作為進(jìn)一步的改進(jìn),所述降維處理采用:主成分分析方法、非負(fù)矩陣分解方法和概率潛在語義分析方法中的至少一種進(jìn)行降維處理。
12.作為進(jìn)一步的改進(jìn),在采用所述主成分分析方法、非負(fù)矩陣分解方法和概率潛在語義分析方法進(jìn)行降維處理時,概率潛在語義分析方法參數(shù)選擇包括:變化閾值等于0.01。
13.作為進(jìn)一步的改進(jìn),在同時采用所述主成分分析方法、所述非負(fù)矩陣分解方法和所述概率潛在語義分析方法進(jìn)行降維處理時,分別選取所述主成分分析方法降維處理后的300個維度數(shù)據(jù),所述非負(fù)矩陣分解方法降維處理后的前300個維度數(shù)據(jù),和所述概率潛在語義分析方法降維處理后的前300個維度數(shù)據(jù),以形成共3
×
300維度的融合數(shù)據(jù)作為所述質(zhì)譜特征數(shù)據(jù)。
14.作為進(jìn)一步的改進(jìn),所述分類和溯源中,其中80%的數(shù)據(jù)作為訓(xùn)練集,剩余20%的數(shù)據(jù)作為測試集。
15.作為進(jìn)一步的改進(jìn),在質(zhì)譜成像比較上,所述主成分分析方法和所述非負(fù)矩陣分解方法的成像效果接近,但所述非負(fù)矩陣分解方法在成像的層次上更豐富;所述概率潛在語義分析方法與所述主成分分析方法和所述非負(fù)矩陣分解方法在成像效果上存在差異,三種方法之間存在成像效果優(yōu)勢互補(bǔ)的關(guān)系,所述主成分分析方法和所述非負(fù)矩陣分解方法對不同品牌的墨水顯示明顯的區(qū)別,所述概率潛在語義分析方法對相同品牌不同型號墨水顯示區(qū)別。
16.作為進(jìn)一步的改進(jìn),在所述實時直接分析質(zhì)譜方法中,采用實時直接分析離子源、高分辨質(zhì)譜儀、實時直接分析軟件、xcalibur軟件、賽默飛qexactive軟件。
17.作為進(jìn)一步的改進(jìn),在所述實時直接分析質(zhì)譜方法中的參數(shù)包括:45
°
角吹掃模塊,離子源解離氣體為氦氣,溫度為250℃,x-y圖像測試模式,x軸速度為1毫米/秒,y軸速度為1毫米/秒,x軸的測試時間設(shè)定為0.25分,所述xcalibur軟件建立方法的參數(shù)為:正離子模式全掃描,掃描范圍為50~750m/z,分辨率為35000fwhm,網(wǎng)格電壓為150v。
18.作為進(jìn)一步的改進(jìn),在所述實時直接分析質(zhì)譜方法中包括樣品檢測步驟序列,所
述樣品檢測步驟序列包括:對所述待溯源樣品的確定標(biāo)準(zhǔn)樣品區(qū)域,在所述樣品區(qū)域中進(jìn)行序列步進(jìn)。
19.作為進(jìn)一步的改進(jìn),所述樣品區(qū)域的長度為1.5厘米,高度0.5厘米,所述序列步進(jìn)的順序是在所述樣品區(qū)域內(nèi)沿所述高度內(nèi)平均分成5個檢測行,自最低檢測行逐行并與上一行首尾相連直至上升到最高檢測行,且每一行檢測100個點。
20.作為進(jìn)一步的改進(jìn),所述質(zhì)譜圖像包括:一次性檢測成像的情況和無法一次性檢測成像的情況,所述無法一次性檢測成像的情況包括:同一載體的不同區(qū)域成像和不同載體成像,對于所述無法一次性檢測成像墨水,先分別進(jìn)行檢測然后融合成一個質(zhì)譜圖像,所述墨水質(zhì)譜數(shù)據(jù)庫和所述樣品墨水質(zhì)譜數(shù)據(jù)采用的所述質(zhì)譜圖像的格式為imzml格式并保存,以進(jìn)行所述進(jìn)行質(zhì)譜對齊和標(biāo)準(zhǔn)化預(yù)處理。
21.作為進(jìn)一步的改進(jìn),所述質(zhì)譜對齊和標(biāo)準(zhǔn)化預(yù)處理的步驟依次包括:導(dǎo)入所述墨水質(zhì)譜數(shù)據(jù)庫和所述樣品墨水質(zhì)譜數(shù)據(jù),強(qiáng)度轉(zhuǎn)化和平滑,基線調(diào)整,強(qiáng)度校準(zhǔn)和提取質(zhì)譜峰,對齊和形成所述質(zhì)譜峰矩陣。
22.作為進(jìn)一步的改進(jìn),所述墨水質(zhì)譜數(shù)據(jù)庫包含市場占有率前三品牌的黑噴墨打印墨水型號,所述全彩包括:黑、品紅、黃、藍(lán)。
23.作為進(jìn)一步的改進(jìn),所述卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練模型包括一個輸入層,兩個卷積層和一個輸出層共四層,所述輸入層為初始層并包含設(shè)計的cnn模型中的油墨信息;兩個所述卷積層分別包含64個和32個可優(yōu)化過濾器,相應(yīng)用于轉(zhuǎn)換輸入或輸入之前的第一個隱藏層;最后一層是輸出層,代表墨水來源的分類。
24.作為進(jìn)一步的改進(jìn),針對不同墨水量和墨水不同空間分布情況,采取大面積掃描和所述質(zhì)譜圖像多像素集體決策提高方法的適用范圍和準(zhǔn)確率。
25.作為進(jìn)一步的改進(jìn),所述卷積神經(jīng)網(wǎng)絡(luò)基于每個質(zhì)譜像素進(jìn)行溯源,當(dāng)待檢測樣品的墨水量和墨水空間分布變化時,通過多像素集體決策以提高溯源準(zhǔn)確率。
26.作為進(jìn)一步的改進(jìn),選取250個或更多像素,對溯源結(jié)果進(jìn)行硬投票作為最后的結(jié)果。
27.本發(fā)明所述的墨水溯源方法,自帶背景數(shù)據(jù)庫,包含三大品牌全彩(黑、品紅、黃、和藍(lán))墨水,提供了墨水品牌溯源和型號溯源的基礎(chǔ)數(shù)據(jù),采用主成分分析方法、非負(fù)矩陣分解方法和概率潛在語義分析方法進(jìn)行降維處理,特別是三種方法聯(lián)用能夠更好的把多種型號的墨水進(jìn)行分類,顯著提升了墨水溯源的準(zhǔn)確率。
附圖說明
28.圖1為本發(fā)明樣品檢測步驟序列示意圖。
29.附圖標(biāo)記:1-樣品區(qū)域、2-檢測行。
具體實施方式
30.下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
31.如圖1所示,本發(fā)明提供一種墨水分類和溯源的方法,其包括:建立一個全彩噴墨打印墨水質(zhì)譜數(shù)據(jù)庫,其中:所述墨水質(zhì)譜數(shù)據(jù)庫為通過實時直接分析質(zhì)譜方法在大氣壓下對物質(zhì)的原始狀態(tài)進(jìn)行快速和直接的分析獲得;通過所述實時直接分析質(zhì)譜方法獲得待溯源樣品的墨水質(zhì)譜數(shù)據(jù);所述墨水質(zhì)譜數(shù)據(jù)庫和所述樣品墨水質(zhì)譜數(shù)據(jù)均是按照質(zhì)譜圖像上的每個像素點為最小數(shù)據(jù)單元,將所述墨水質(zhì)譜數(shù)據(jù)庫和所述樣品墨水質(zhì)譜數(shù)據(jù)一起進(jìn)行質(zhì)譜對齊和標(biāo)準(zhǔn)化預(yù)處理后形成質(zhì)譜峰矩陣;對所述質(zhì)譜峰矩陣進(jìn)行降維處理,將所述降維處理后的數(shù)據(jù)作為質(zhì)譜特征數(shù)據(jù);采用質(zhì)譜成像技術(shù)對所述質(zhì)譜特征數(shù)據(jù)進(jìn)行可視化后并進(jìn)行如下方法分類和溯源:直接觀察質(zhì)譜成像圖上墨水之間的不同,以作為法庭科學(xué)墨水分析中一種快速、直觀的分類方法;對于質(zhì)譜成像未發(fā)現(xiàn)差異的墨水,進(jìn)一步使用卷積神經(jīng)網(wǎng)絡(luò)模型以對所述待溯源樣品中的墨水品牌和型號分別進(jìn)行分類和溯源。
32.本發(fā)明提供一種墨水溯源方法,其創(chuàng)造基于一個全彩(黑、品紅、黃、藍(lán))噴墨打印墨水的實時直接分析質(zhì)譜(dart-ms)數(shù)據(jù)庫,同時對樣品墨水建立樣品墨水質(zhì)譜數(shù)據(jù),對兩數(shù)據(jù)利用降維技術(shù)幫助對海量高維質(zhì)譜數(shù)據(jù)進(jìn)行降維,質(zhì)譜成像技術(shù)對降維數(shù)據(jù)進(jìn)行可視化,直接呈現(xiàn)墨水之間的不同,可作為法庭科學(xué)墨水分析中一種快速、直觀的分類方法;對于質(zhì)譜成像未發(fā)現(xiàn)差異的墨水,進(jìn)一步使用卷積神經(jīng)網(wǎng)絡(luò)模型對所述質(zhì)譜特征數(shù)據(jù)進(jìn)行分類和溯源,對同一墨水、不同墨水、墨水品牌和型號質(zhì)譜的變化進(jìn)行了系統(tǒng)的研究,以質(zhì)譜數(shù)據(jù)庫為背景信息,為科學(xué)、準(zhǔn)確的判斷墨水的來源提供了堅實的基礎(chǔ)。
33.作為進(jìn)一步的改進(jìn),所述待溯源樣品包括:背景材料和所述背景材料上的墨水材料。
34.作為進(jìn)一步的改進(jìn),所述墨水材料在所述背景材料上呈現(xiàn)為文字、線條、塊或圖案中的至少一種形式。
35.作為進(jìn)一步的改進(jìn),所述樣品墨水質(zhì)譜數(shù)據(jù)的獲得過程為:在相同條件和相同質(zhì)譜方法下分別獲得:包括所述背景材料和所述墨水材料在內(nèi)的整體樣品質(zhì)譜數(shù)據(jù),和排除所述墨水材料而獲得的背景材料質(zhì)譜數(shù)據(jù);在所述整體樣品質(zhì)譜數(shù)據(jù)中扣除背景材料質(zhì)譜數(shù)據(jù),以獲得所述樣品墨水質(zhì)譜數(shù)據(jù)。
36.作為進(jìn)一步的改進(jìn),所述降維處理采用:主成分分析方法、非負(fù)矩陣分解方法和概率潛在語義分析方法中的至少一種進(jìn)行降維處理。
37.作為進(jìn)一步的改進(jìn),在采用所述主成分分析方法、非負(fù)矩陣分解方法和概率潛在語義分析方法進(jìn)行降維處理時,概率潛在語義分析方法參數(shù)選擇包括:變化閾值等于0.01。
38.作為進(jìn)一步的改進(jìn),在同時采用所述主成分分析方法、所述非負(fù)矩陣分解方法和所述概率潛在語義分析方法進(jìn)行降維處理時,分別選取所述主成分分析方法降維處理后的300個維度數(shù)據(jù),所述非負(fù)矩陣分解方法降維處理后的前300個維度數(shù)據(jù),和所述概率潛在語義分析方法降維處理后的前300個維度數(shù)據(jù),以形成共3
×
300維度的融合數(shù)據(jù)作為所述質(zhì)譜特征數(shù)據(jù)。
39.作為進(jìn)一步的改進(jìn),所述分類和溯源中,其中80%的數(shù)據(jù)作為訓(xùn)練集,剩余20%的數(shù)據(jù)作為測試集。
40.作為進(jìn)一步的改進(jìn),在質(zhì)譜成像比較上,所述主成分分析方法和所述非負(fù)矩陣分解方法的成像效果接近,但所述非負(fù)矩陣分解方法在成像的層次上更豐富;所述概率潛在語義分析方法與所述主成分分析方法和所述非負(fù)矩陣分解方法在成像效果上存在差異,三
種方法之間存在成像效果優(yōu)勢互補(bǔ)的關(guān)系,所述主成分分析方法和所述非負(fù)矩陣分解方法對不同品牌的墨水顯示明顯的區(qū)別,所述概率潛在語義分析方法對相同品牌不同型號墨水顯示區(qū)別。
41.作為進(jìn)一步的改進(jìn),在所述實時直接分析質(zhì)譜方法中,采用實時直接分析離子源、高分辨質(zhì)譜儀、實時直接分析軟件、xcalibur軟件、賽默飛qexactive軟件。
42.作為進(jìn)一步的改進(jìn),在所述實時直接分析質(zhì)譜方法中的參數(shù)包括:45
°
角吹掃模塊,離子源解離氣體為氦氣,溫度為250℃,x-y圖像測試模式,x軸速度為1毫米/秒,y軸速度為1毫米/秒,x軸的測試時間設(shè)定為0.25分,所述xcalibur軟件建立方法的參數(shù)為:正離子模式全掃描,掃描范圍為50~750m/z,分辨率為35000fwhm,網(wǎng)格電壓為150v。
43.作為進(jìn)一步的改進(jìn),在所述實時直接分析質(zhì)譜方法中包括樣品檢測步驟序列,所述樣品檢測步驟序列包括:對所述待溯源樣品的確定標(biāo)準(zhǔn)樣品區(qū)域1,在所述樣品區(qū)域1中進(jìn)行序列步進(jìn)。
44.作為進(jìn)一步的改進(jìn),所述樣品區(qū)域1的長度為1.5厘米,高度0.5厘米,所述序列步進(jìn)的順序是在所述樣品區(qū)域內(nèi)沿所述高度內(nèi)平均分成5個檢測行2,自最低檢測行逐行并與上一行首尾相連直至上升到最高檢測行,且每一行檢測100個點。
45.作為進(jìn)一步的改進(jìn),所述質(zhì)譜圖像包括:一次性檢測成像的情況和無法一次性檢測成像的情況,所述無法一次性檢測成像的情況包括:同一載體的不同區(qū)域成像和不同載體成像,對于所述無法一次性檢測成像墨水,先分別進(jìn)行檢測然后融合成一個質(zhì)譜圖像,所述墨水質(zhì)譜數(shù)據(jù)庫和所述樣品墨水質(zhì)譜數(shù)據(jù)采用的所述質(zhì)譜圖像的格式為imzml格式并保存,以進(jìn)行所述進(jìn)行質(zhì)譜對齊和標(biāo)準(zhǔn)化預(yù)處理。在優(yōu)選的實施例中,對于同一載體不同區(qū)域、不同載體(分離載體)等不能一次性檢測成像的情況,進(jìn)行了優(yōu)化處理,更適應(yīng)該類特殊情況的墨水分類和溯源。
46.作為進(jìn)一步的改進(jìn),所述質(zhì)譜對齊和標(biāo)準(zhǔn)化預(yù)處理的步驟依次包括:導(dǎo)入所述墨水質(zhì)譜數(shù)據(jù)庫和所述樣品墨水質(zhì)譜數(shù)據(jù),強(qiáng)度轉(zhuǎn)化和平滑,基線調(diào)整,強(qiáng)度校準(zhǔn)和提取質(zhì)譜峰,對齊和形成所述質(zhì)譜峰矩陣。
47.作為進(jìn)一步的改進(jìn),所述墨水質(zhì)譜數(shù)據(jù)庫包含市場占有率前三品牌的黑噴墨打印墨水型號,所述全彩包括:黑、品紅、黃、藍(lán)。
48.作為進(jìn)一步的改進(jìn),所述卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練模型包括一個輸入層,兩個卷積層和一個輸出層共四層,所述輸入層為初始層并包含設(shè)計的cnn模型中的油墨信息;兩個所述卷積層分別包含64個和32個可優(yōu)化過濾器,相應(yīng)用于轉(zhuǎn)換輸入或輸入之前的第一個隱藏層;最后一層是輸出層,代表墨水來源的分類。
49.作為進(jìn)一步的改進(jìn),針對不同墨水量和墨水不同空間分布情況,采取大面積掃描和所述質(zhì)譜圖像多像素集體決策提高方法的適用范圍和準(zhǔn)確率。
50.作為進(jìn)一步的改進(jìn),所述卷積神經(jīng)網(wǎng)絡(luò)基于每個質(zhì)譜像素進(jìn)行溯源,當(dāng)待檢測樣品的墨水量和墨水空間分布變化時,通過多像素集體決策以提高溯源準(zhǔn)確率。
51.作為進(jìn)一步的改進(jìn),選取250個或更多像素,對溯源結(jié)果進(jìn)行硬投票作為最后的結(jié)果。
52.本發(fā)明所述的墨水溯源方法,自帶背景數(shù)據(jù)庫,包含三大品牌黑墨水,提供了墨水品牌溯源和型號溯源的基礎(chǔ)數(shù)據(jù),采用主成分分析方法,非負(fù)矩陣分解法和概率隱語義
分析方法進(jìn)行降維處理,特別是三種方法聯(lián)用能夠更好的把多種型號的墨水進(jìn)行分類,顯著提升了墨水溯源的準(zhǔn)確率。
53.本發(fā)明創(chuàng)造基于一個全彩(黑、品紅、黃和藍(lán))噴墨打印墨水的實時直接分析質(zhì)譜dart-ms數(shù)據(jù)庫,利用主成分分析、非負(fù)矩陣分解和概率隱語義分析技術(shù),幫助對海量高維質(zhì)譜數(shù)據(jù)進(jìn)行降維和可視化,形成一個高質(zhì)量的墨水?dāng)?shù)據(jù)庫作為背景數(shù)據(jù),對同一墨水和不同墨水質(zhì)譜數(shù)據(jù)的變化規(guī)律進(jìn)行系統(tǒng)的研究。本發(fā)明創(chuàng)造包含一個106種的全彩(黑、品紅、黃和藍(lán))噴墨打印墨水?dāng)?shù)據(jù)庫(惠普、佳能、愛普生),對同一墨水和不同墨水質(zhì)譜的變化進(jìn)行了系統(tǒng)的研究,數(shù)據(jù)庫提供了同一墨水和不同墨水質(zhì)譜特征作為背景信息,為科學(xué)、準(zhǔn)確的判斷墨水的來源提供了堅實的基礎(chǔ)。
54.實時直接分析質(zhì)譜(dart-ms)實現(xiàn)在大氣壓下對物質(zhì)的原始狀態(tài)進(jìn)行快速和直接的分析,幾乎不需要的樣品制備。dart-ms通過質(zhì)譜分析油墨,通過大面積掃描噴墨打印字符,獲得優(yōu)秀的質(zhì)譜數(shù)據(jù)。同時檢測紙張的空白質(zhì)譜,將墨跡質(zhì)譜減去紙張空白質(zhì)譜的數(shù)據(jù)提供后續(xù)分析。將上述的質(zhì)譜數(shù)據(jù),按照質(zhì)譜圖像的格式“imzml”保存。
55.實時直接分析質(zhì)譜(dart-ms)中,檢測是儀器和參數(shù)為:
56.儀器:實時直接分析離子源(ion sense公司),q-exactive obitrap高分辨質(zhì)譜儀(thermo scientific公司)。采用dart軟件、xcalibur 3.0軟件、thermo q exactive軟件。dart參數(shù)為:45
°
角吹掃模塊,離子源解離氣體為氦氣、溫度為250℃。x-y imaging測試模式,x軸速度為1mm/sec,y軸速度為1mm/sec。x軸的測試時間設(shè)定為0.25min。xcalibur建立方法的參數(shù)為:正離子模式,全掃描(full scan),掃描范圍為50~750m/z,分辨率為35000fwhm,網(wǎng)格電壓為150v。
57.將上述扣除背景的質(zhì)譜數(shù)據(jù)經(jīng)過質(zhì)譜對齊和標(biāo)準(zhǔn)化預(yù)處理,預(yù)處理包括:導(dǎo)入所述墨水質(zhì)譜數(shù)據(jù)庫和所述樣品墨水質(zhì)譜數(shù)據(jù)、強(qiáng)度轉(zhuǎn)化、平滑、基線調(diào)整,強(qiáng)度校準(zhǔn)、提取質(zhì)譜峰對齊、質(zhì)譜峰矩陣。預(yù)處理后使用主成分分析、非負(fù)矩陣分解和概率隱語義分析方法對數(shù)據(jù)進(jìn)行降維處理。概率潛在語義分析方法參數(shù)選擇:變化閾值等于0.01預(yù)處理后也可單獨(dú)或者同時采用主成分分析、非負(fù)矩陣分解和概率隱語義分析方法進(jìn)行降維。主成分分析方法和所述非負(fù)矩陣分解方法比較接近,非負(fù)矩陣分解方法的成像層次更豐富;所述概率潛在語義分析方法與上述兩種方法存在較大差異。三種方法之間存在優(yōu)勢互補(bǔ)的關(guān)系。
58.在同時采用主成分分析、非負(fù)矩陣分解和概率隱語義分析進(jìn)行降維處理時,融合主成分分析、非負(fù)矩陣分解和概率隱語義分析溯源的步驟:
59.分別選取主成分分析、非負(fù)矩陣分解和概率隱語義分析降維處理后的前300個維度的數(shù)據(jù)融合成為作為特征數(shù)據(jù)(共900個維度),對于每個質(zhì)譜通過pca和umap降維,提取出了900個特征。最后用卷積神經(jīng)網(wǎng)絡(luò)模型,對墨水的質(zhì)譜特征數(shù)據(jù)進(jìn)行分類和溯源,其中80%的數(shù)據(jù)作為訓(xùn)練集,剩余20%的數(shù)據(jù)作為測試集,(是按照質(zhì)譜圖像上的每個像素點為最小數(shù)據(jù)單元),對墨水的品牌和型號分別進(jìn)行分類和溯源。將質(zhì)譜圖像上的每個像素點900維數(shù)據(jù)重塑成30*30的矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),結(jié)果顯示,黑、品紅和黃三種墨水溯源測試準(zhǔn)確率維100%,藍(lán)墨水維99.6%。
60.和傳統(tǒng)方法相比,本發(fā)明是一種基于主成分分析、非負(fù)矩陣分解和概率隱語義分析技術(shù)和卷積神經(jīng)網(wǎng)絡(luò)的墨水溯源方法,主成分分析、非負(fù)矩陣分解和概率隱語義分析方法聯(lián)用能夠成功的將106種型號的墨水進(jìn)行分類和溯源。自帶背景數(shù)據(jù)庫,包含三大品牌
(惠普、佳能、愛普生)106種全彩(黑、品紅、黃和藍(lán))墨水,提供了墨水品牌溯源和型號溯源的基礎(chǔ)數(shù)據(jù)。待溯源樣品的樣品最小面積尺寸可在0.15mm2,對墨水的品牌和型號的溯源準(zhǔn)確性高。利用質(zhì)譜數(shù)據(jù)預(yù)測墨水來源,可直接應(yīng)用于司法筆跡鑒定的技術(shù)領(lǐng)域。
61.應(yīng)了解本發(fā)明所要保護(hù)的范圍不限于非限制性實施方案,應(yīng)了解非限制性實施方案僅僅作為實例進(jìn)行說明。本技術(shù)所要要求的實質(zhì)的保護(hù)范圍更體現(xiàn)于獨(dú)立權(quán)利要求提供的范圍,以及其從屬權(quán)利要求。
