應(yīng)用方向:
本研究采用高光譜成像技術(shù)和深度森林(DF)模型,,對不同程度霜害稻種進(jìn)行快速無損分類,。通過優(yōu)化光譜數(shù)據(jù)預(yù)處理(如多元散射校正MSC)和特征提取算法(如鄰域成分分析NCA),構(gòu)建了多種分類模型,,并對比了傳統(tǒng)機(jī)器學(xué)習(xí)方法(決策樹,、KNN、SVM)與DF模型在小樣本數(shù)據(jù)上的表現(xiàn),。結(jié)果顯示,DF模型具有更高的分類精度和魯棒性,。研究還通過可視化技術(shù)直觀展示了霜害稻種的分類結(jié)果,,為農(nóng)業(yè)生產(chǎn)中的種子篩選和質(zhì)量控制提供了高效、智能化的解決方案,。該方法不僅提高了霜害種子檢測精度,,也為高光譜成像在精準(zhǔn)農(nóng)業(yè)中的應(yīng)用提供了重要參考。
背景:
稻種質(zhì)量直接影響農(nóng)業(yè)產(chǎn)量,,但在生產(chǎn)和儲存過程中易受霜害,、熱害、真菌感染等影響,,導(dǎo)致活力下降,,尤其在中國東北地區(qū),晚熟粳稻種子易受低溫霜害,,降低發(fā)芽率和幼苗生長速率,,可能引發(fā)農(nóng)業(yè)減產(chǎn)。因此,,快速,、非破壞性檢測霜害種子的技術(shù)對農(nóng)業(yè)生產(chǎn)至關(guān)重要。
傳統(tǒng)檢測方法如發(fā)芽試驗,、四唑染色法雖準(zhǔn)確,,但操作復(fù)雜、成本高且具破壞性,,難以大規(guī)模應(yīng)用,。近年來,光譜成像技術(shù)因其能同時獲取光譜和圖像信息,,被廣泛應(yīng)用于種子質(zhì)量檢測,,尤其是高光譜成像技術(shù)結(jié)合化學(xué)計量學(xué)和機(jī)器學(xué)習(xí)算法,在種子活力和霜害檢測方面取得顯著成果。
然而,,深度學(xué)習(xí)模型通常需要大量樣本和復(fù)雜參數(shù)設(shè)置,。為此,本文提出將高光譜成像技術(shù)與適用于小樣本數(shù)據(jù)的深度森林模型(DF)結(jié)合,,用于霜害稻種分類研究,。該方法建模簡單,對小樣本數(shù)據(jù)具有良好魯棒性,,為霜害稻種識別提供了一種高效解決方案,。
實驗設(shè)計
1.1材料與方法
本實驗使用的水稻種子品種為“艷風(fēng)”,2018年收獲于遼寧盤錦,,初始含水量13%至14%(干種子),。隨機(jī)選取1800粒種子,并人工調(diào)整含水量至30%,,以研究霜凍損傷,。種子被隨機(jī)分為6組,每組300粒,,其中一組為對照組,,未冷凍處理,其余5組在不同溫度下冷凍不同時間(見表1),。冷凍后,,種子在25°C干燥通風(fēng)環(huán)境中放置一周,以恢復(fù)正常溫度并減少水分干擾,。
在本實驗中,選用了江蘇雙利合譜科技有限公司的“GaiaSorter”高光譜成像系統(tǒng),。該系統(tǒng)的核心組件包括均勻光源,、光譜相機(jī)、計算機(jī)以及相關(guān)的控制軟件,。在光譜成像儀中使用的相機(jī)是“Image-λ”系列高光譜相機(jī),,其光譜范圍大約為900-1700 nm。系統(tǒng)的工作原理是將待測樣品放置在由軟件控制的電動移動平臺上,,并采用推掃法來收集圖像,。隨著電動平臺的移動,最終獲得了包含待測樣品光譜信息和圖像信息的高光譜立方體數(shù)據(jù),。由于原始光譜數(shù)據(jù)中存在的噪聲會干擾后續(xù)的數(shù)據(jù)分析,,因此本實驗選取SG1、SNV和MSC方法對原始光譜數(shù)據(jù)進(jìn)行預(yù)處理,。
圖1. 提取光譜數(shù)據(jù)的主要流程圖,。
在獲取高光譜圖像之后,從每組中隨機(jī)選取50粒水稻種子,,并根據(jù)國際種子檢測協(xié)會(ISTA)的規(guī)則進(jìn)行發(fā)芽測試,。我們將種子浸泡在蒸餾水中12小時,然后在標(biāo)準(zhǔn)發(fā)芽箱中進(jìn)行種子發(fā)芽測試,,并在種子表面覆蓋濕潤的發(fā)芽紙以在室溫25°C下遮光,。發(fā)芽力(GF)和發(fā)芽率(GR)是反映種子質(zhì)量的主要指標(biāo)之一。通常情況下,,具有高GR和GF的種子活力強,,而GR高但GF低的種子也可能活力低下。
原始光譜數(shù)據(jù)高維且含冗余信息,,難以直觀區(qū)分樣本差異,。本研究采用t-SNE方法將高維數(shù)據(jù)映射至低維,實現(xiàn)樣本可視化,,并擴(kuò)大簇間距離以緩解擁擠問題,。此外,高光譜數(shù)據(jù)的冗余和共線性影響模型性能,,因此使用PCA、SPA和NCA提取特征波長,。PCA將多個指標(biāo)轉(zhuǎn)化為少數(shù)主成分以降低維度,,SPA通過前向變量選擇去除冗余信息,NCA作為度量學(xué)習(xí)算法,,優(yōu)化數(shù)據(jù)的空間表示,,提高模型效果。
本研究利用決策樹(DT),、K最近鄰(KNN),、支持向量機(jī)(SVM)和深度森林(DF)四種模型對水稻種子進(jìn)行分類評價,確保分類的準(zhǔn)確性與泛化能力,。DT通過構(gòu)建決策樹確定分類概率,,并采用交叉驗證優(yōu)化最小葉節(jié)點(minleaf)值。KNN依據(jù)鄰近樣本類別進(jìn)行分類,,并通過自動優(yōu)化程序確定最佳k值,。SVM采用RBF核函數(shù)處理線性和非線性數(shù)據(jù),并利用網(wǎng)格搜索優(yōu)化懲罰系數(shù)(c)和核函數(shù)半徑,。DF通過級聯(lián)森林結(jié)構(gòu)進(jìn)行表示學(xué)習(xí),,并在驗證集上評估性能,若無顯著提升則終止訓(xùn)練,,以控制模型復(fù)雜度,。
5.2.結(jié)果與討論
(1)發(fā)芽試驗結(jié)果分析
表2顯示,不同冷凍條件下水稻種子的發(fā)芽勢(GF)、發(fā)芽率(GR)和平均芽長均下降,。正常種子的GF與GR一致,,而霜凍傷害種子的GF低于GR。GR高且GF強表明幼苗出土快且整齊,,GF弱則出土不均且幼苗弱,。在-10°C/4小時下,GR達(dá)90%,,GF僅82%,,且平均芽長較短,表明輕微霜凍傷害,。這些種子播種后出苗不足,,影響收成,因此快速無損識別霜凍傷害種子對農(nóng)業(yè)生產(chǎn)至關(guān)重要,。
(2)原始光譜分析
原始光譜波長范圍為900-1700 nm,但受儀器影響,,前后部分噪聲較大,。因此,我們選取了949.0-1638.0 nm的210個波長進(jìn)行分析,。圖3顯示不同冷凍條件下水稻種子的平均光譜曲線和標(biāo)準(zhǔn)差,。六組種子的光譜曲線趨勢相似,但在特定波長范圍內(nèi)存在顯著差異,。例如,,在1000.0-1300.0 nm,光譜反射率依次遞減:-25°C/20 h > -20°C/16 h > -15°C/12 h > -10°C/8 h > -10°C/4 h > 未處理,,其中1300 nm處差異*明顯,。1000-1100 nm主要對應(yīng)N/H伸縮的第三泛音,1100-1300 nm對應(yīng)C/H伸縮的第二泛音,。隨著冷凍溫度和時間增加,,種子細(xì)胞受損,淀粉結(jié)構(gòu)破壞,,影響糊粉層和胚的結(jié)構(gòu),,阻礙赤霉素進(jìn)入,進(jìn)而影響種子活力,。因此,,冷凍條件越嚴(yán)苛,細(xì)胞破壞越嚴(yán)重,,使得1000-1300 nm的光譜反射率逐漸增加,。
圖3. 不同冷凍條件下水稻種子的平均光譜曲線及其標(biāo)準(zhǔn)差
(3)高維光譜數(shù)據(jù)的可視化分析
本研究采用t-SNE對原始光譜數(shù)據(jù)及SG1、SNV,、MSC三種預(yù)處理方法處理后的光譜數(shù)據(jù)進(jìn)行可視化,,并將其降維至二維進(jìn)行分析比較。為減少t-SNE的隨機(jī)性,,采用Matlab R2018b默認(rèn)參數(shù)(歐幾里得距離,、Perplexity = 30、LearnRate = 500,、Theta = 0.5),。
圖4展示了不同預(yù)處理方法的光譜曲線及t-SNE可視化結(jié)果。從圖4e可見,,原始光譜數(shù)據(jù)在不同冷凍條件下混合重疊,,降維后特征難以區(qū)分。圖4f和4g顯示,,SG1和SNV處理后仍存在大量重疊,,與原始數(shù)據(jù)相比無明顯改善。而圖4h表明,,經(jīng)MSC預(yù)處理的數(shù)據(jù)聚類效*顯著,,6組水稻種子被清晰分類??傮w而言,,MSC處理后的光譜數(shù)據(jù)優(yōu)于其他方法。
圖4. 不同預(yù)處理方法的光譜曲線:(a) 原始光譜曲線,;(b) SG1處理后的光譜曲線,;(c) SNV處理后的光譜曲線;(d) MSC處理后的光譜曲線,。使用t-SNE可視化不同預(yù)處理方法處理的光譜數(shù)據(jù):(e) 原始光譜數(shù)據(jù),;(f) SG1處理后的光譜數(shù)據(jù);(g) SNV處理后的光譜數(shù)據(jù),;(h) MSC處理后的光譜數(shù)據(jù),。
(4)基于全波長的建模分析
在建模前,所有樣本隨機(jī)分為校準(zhǔn)集和預(yù)測集,,比例為3:1,。為了選擇最佳的預(yù)處理方法和模型組合,將原始光譜數(shù)據(jù)以及經(jīng)過SG1,、SNV和MSC預(yù)處理的光譜數(shù)據(jù)分別輸入到DT,、KNN,、SVM和DF模型中。圖5顯示了基于全波長的建模分析結(jié)果,??梢钥闯觯?jīng)過MSC處理的光譜數(shù)據(jù)具有最高的建模準(zhǔn)確率,均高于90%,。這與t-SNE可視化的結(jié)論一致,。
圖5. 基于全波長建模分析的結(jié)果
(5)基于PCA,、SPA和NCA的特征波長選擇
為降低高維光譜數(shù)據(jù)維度并保留關(guān)鍵信息,,本研究采用PCA、SPA和NCA從MSC處理后的光譜數(shù)據(jù)(210個變量)中提取特征波長,。前三個主成分的累積貢獻(xiàn)率達(dá)99.52%,,因此選取其載荷系數(shù)提取特征波長。圖6顯示了提取結(jié)果,,共選出10個關(guān)鍵波長(1003.7,、1108.7、1115.4,、1192.5,、1199.2、1295.4,、1302.0,、1357.8、1462.0和1471.7 nm),。
圖6. 利用前三個主成分載荷曲線提取的特征波長。
圖7展示了SPA選擇的特征波長結(jié)果,。最終,,選擇了8個特征波長,根據(jù)它們相關(guān)性的順序排列依次是1139.0,、1088.5,、1000.3、1195.9,、1282.2,、1612.6、1367.6和1467.0 nm,。這些波長的相關(guān)性也顯示了它們在區(qū)分不同霜凍程度水稻種子中的重要性,。
圖7. 由SPA提取的特征波長,。
NCA算法用于高維數(shù)據(jù)特征選擇,,通過計算變量權(quán)重篩選重要特征,。圖8顯示,在210個波長中,,僅6個波長權(quán)重顯著高于0,,表明多數(shù)波長對區(qū)分霜凍程度貢獻(xiàn)較小。最終選出的六個特征波長依次為1030.9,、1529.6,、1334.9、1152.4,、1047.9和1413.3 nm,,它們與水稻種子化學(xué)成分密切相關(guān)。
圖8. 使用NCA獲得的每個波長的權(quán)重值,。
表3展示了三個特征提取算法提取的特征波長??梢钥闯?,PCA和SPA提取的特征波長非常接近,NCA算法提取的特征波長數(shù)量最少,。
(6)基于特征波長的建模分析
為了評估不同模型的有效性,我們將總樣本集(6類水稻種子,,每類300粒,,共1800粒)分成不同樣本集,包含每類水稻種子10至300粒不等,。模型的準(zhǔn)確率通過五折交叉驗證獲得,。圖9a至d展示了基于DT、KNN,、SVM和DF模型在不同樣本集數(shù)量下的結(jié)果,。整體上,PCA的效果不如NCA和SPA,。在比較后發(fā)現(xiàn),當(dāng)樣本集較少時,,NCA提取的特征波長建模效果優(yōu)于SPA,,且隨著樣本集增加,二者的效果趨于接近,。此外,,NCA提取的特征波長數(shù)量少于SPA,有助于提升運算速度,。因此,,NCA被選為最佳特征提取算法,。
圖9. 基于不同特征提取算法在不同樣本集數(shù)量下的建模結(jié)果,。(a) DT模型,;(b) KNN模型;(c) SVM模型,;(d) DF模型,。
圖10展示了基于NCA的DT、KNN,、SVM和DF模型在不同樣本集數(shù)量下的建模結(jié)果,。DF模型在樣本數(shù)量較少時仍保持了良好的分類效率,顯著高于本其他三個模型,。同時,,由于DF模型在不同樣本集數(shù)量下的分類準(zhǔn)確率優(yōu)于其他三個分類模型,因此最終被選為最佳分類模型,。
圖10. 基于NCA的不同樣本集數(shù)量下DT、KNN,、SVM和DF模型的建模結(jié)果
(7)不同霜凍程度水稻種子的可視化
高光譜成像技術(shù)能夠同時獲取水稻種子的光譜和空間信息,,從而通過可視化地圖展示不同霜凍程度的種子分類結(jié)果。研究采用逐對象方法進(jìn)行可視化,,并從1500粒種子(每類250粒)中選取樣本進(jìn)行模型校準(zhǔn)和測試,,剩余300粒用于可視化?;贛SC-NCA-DF模型,,校準(zhǔn)時將種子隨機(jī)分為校準(zhǔn)集和預(yù)測集,并通過5折交叉驗證驗證模型效果,。通過敏感性和特異性評估模型性能,。DF模型能夠高效區(qū)分健康和不同霜凍程度受損的種子,表明其具有較高的敏感性和特異性,。視覺分類結(jié)果顯示,,在300粒種子中,只有2粒被誤分類,,分類準(zhǔn)確率為99.33%,。
圖11. 不同霜凍程度水稻種子分類結(jié)果的可視化,。
結(jié)論
本研究結(jié)合DF模型和高光譜成像技術(shù),成功識別不同霜凍程度受損的水稻種子,。使用三種光譜預(yù)處理方法,、三種特征提取算法和三種傳統(tǒng)機(jī)器學(xué)習(xí)模型,,以及一個深度學(xué)習(xí)模型進(jìn)行對比建模。經(jīng)過分析,,MSC-NCA-DF模型表現(xiàn)最佳,,DF模型在小樣本集中依然具備良好分類能力,最終被選為最佳模型,?;谠撃P偷姆诸惤Y(jié)果可視化,展示了不同霜凍程度的水稻種子,,為未來在線檢測系統(tǒng)提供參考,。
推薦產(chǎn)品
“GaiaSorter”高光譜成像系統(tǒng)
作者簡介
通訊作者:吉海彥,中國農(nóng)業(yè)大學(xué),,博導(dǎo)
參考文獻(xiàn)
論文引用自一區(qū)文章:Liu Zhang, Heng Sun, Zhenhong Rao, Haiyan Ji. Hyperspectral imaging technology combined with deep forest model to identify frost-damaged rice seeds. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy 229 (2020) 117973.
相關(guān)產(chǎn)品
免責(zé)聲明
- 凡本網(wǎng)注明“來源:化工儀器網(wǎng)”的所有作品,,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-化工儀器網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載,、摘編或利用其它方式使用上述作品,。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,,并注明“來源:化工儀器網(wǎng)”,。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任,。
- 本網(wǎng)轉(zhuǎn)載并注明自其他來源(非化工儀器網(wǎng))的作品,,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé),,不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任,。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,,必須保留本網(wǎng)注明的作品第一來源,,并自負(fù)版權(quán)等法律責(zé)任。
- 如涉及作品內(nèi)容,、版權(quán)等問題,,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利,。