題目
基于集成學(xué)習(xí)方法的煙草葉片氮含量無人機高光譜估測
應(yīng)用關(guān)鍵詞
高光譜遙感、葉片含氮量,、集成學(xué)習(xí),、煙草
背景
煙草生產(chǎn)是中國西南地區(qū)農(nóng)業(yè)和農(nóng)村經(jīng)濟發(fā)展的關(guān)鍵支柱。為了給煙葉質(zhì)量優(yōu)化提供信息支持,,減輕煙農(nóng)的勞動負(fù)擔(dān),,對快速、準(zhǔn)確,、實時的葉片氮含量(Leaf nitrogen content, LNC)檢測方法有很大需求,。無人機機載高光譜遙感(Hyperspectral remote sensing, HRS)能夠以非破壞性的方式獲取成像光譜數(shù)據(jù),,實現(xiàn)煙葉LNC的快速獲取。
一般來說,,可以使用經(jīng)驗方法或物理方法建立模型,,或者兩者相結(jié)合,以實現(xiàn)目標(biāo)性狀的反演,。為了解決單個反演方法的異質(zhì)性,,一些學(xué)者提出了作物表型性狀估計的集成學(xué)習(xí)框架。與試圖從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)一個假設(shè)的普通機器學(xué)習(xí)方法不同,,集成方法試圖構(gòu)建一組假設(shè)并將它們組合起來使用,。集成學(xué)習(xí)的思想是結(jié)合幾種不同的方法來增強輸入的多樣性,,以挖掘更多的數(shù)據(jù)特征,,從而提高模型的整體性能。
本研究旨在建立一種準(zhǔn)確有效的模型,,利用無人機機載高光譜圖像估計煙草LNC,。研究中測試了幾種基于三種集成學(xué)習(xí)策略的典型算法,包括隨機森林(RF)回歸,、自適應(yīng)增強(Adaboost)回歸和堆疊回歸,。此外,我們選擇了常用的偏最小二乘回歸(PLSR)作為基準(zhǔn)模型,。主要創(chuàng)新點有:(1)研究了無人機機載HRS在煙草LNC估算中的潛力,;(2)評估了不同集成學(xué)習(xí)策略(如bagging、boosting和stacking)下模型的性能,;(3)探索基于堆疊策略提高模型預(yù)測精度的可行方法,。
試驗設(shè)計
江蘇大學(xué)趙春江教授團隊利用Gaiasky-Mini2-VN高光譜相機(江蘇雙利合譜公司)獲取了研究區(qū)內(nèi)不同氮處理下煙草冠層的高光譜影像,其波段范圍為400 ~ 1000 nm,,波段數(shù)為256,。各類地物的光譜曲線如圖1所示。在整個田間試驗過程中,,每約20天采集一次冠層圖像,,從移栽后35天開始,一直持續(xù)到收獲,。
影像獲取后,,第一步,利用ExG去除背景,,并提取平均反射率,。第二步,利用連續(xù)投影算法(SPA)進行數(shù)據(jù)降維,。第三步,,建立LNC估計模型,研究中選擇了常用的PLSR作為基準(zhǔn)模型(圖1)。此外,,采用集成學(xué)習(xí)方法來完成上述相同的回歸任務(wù),。集成學(xué)習(xí)框架下有三種建模策略,即bagging,、boosting和stacking,。本研究以決定系數(shù)(R2)、均方根誤差(RMSE)和平均絕對百分比誤差(MAPE)作為評價指標(biāo),。
圖1 本研究主要步驟流程圖
結(jié)論
本研究對全波段高光譜反射率數(shù)據(jù)進行主成分分析(PCA),,提取對LNC變化更敏感的主成分(PC)。如圖2所示,,選取前80個PC進行顯示,,當(dāng)主成分?jǐn)?shù)為4、6,、7時,,累積方差貢獻率(AVCR)分別超過99.5%、99.8%,、99.9%,。我們選擇SPA作為二次降維算法。與PCA不同,,SPA可以通過選擇對LNC變化更敏感的變量來降低數(shù)據(jù)維度,,最終保留了15個波段(圖3)。
圖2 前7個PC貢獻了超過99.9%的信息
圖3 選擇的15個波段
從圖4可以看出,,PLSR的R2相對較低,,但訓(xùn)練集與測試集之間的差距較小。由于PLSR結(jié)合了PCA和MLR,。在這里,,我們也給出了MLR的預(yù)測結(jié)果,訓(xùn)練集和測試集之間的差距也很?。▓D4c,、4d)。結(jié)果表明,,訓(xùn)練良好的MLR模型具有良好的穩(wěn)定性,,樣本分布均勻,同時也證明了我們的數(shù)據(jù)集劃分是合理的,。
圖4g – 4p顯示了集成學(xué)習(xí)方法的結(jié)果,,包括RF、Adaboost和堆疊模型,。RF和Adaboost都是基于決策樹回歸(DTR),,為了避免過擬合,,我們將??????_????????的值設(shè)置為5。DTR的預(yù)測結(jié)果如圖4e和圖4f所示,。對于堆疊模型,,我們采用雙層結(jié)構(gòu),MLR和DTR模型(即stacking – 1)作為第一層的基估計器,,MLR作為第二層的元估計器,。結(jié)果表明,stacking - 3模型預(yù)測效果好,。與DTR模型在測試集上的預(yù)測結(jié)果相比,,stacking - 1模型得到了顯著增強,但相較于SPA-MLR改進幅度較小,。結(jié)果表明,,疊加策略可以傳遞基估計器的優(yōu)點。通過組合多個模型來挖掘更有價值的數(shù)據(jù)特征,。在圖4m - 4p中也可以看到類似的現(xiàn)象,。通過將已經(jīng)訓(xùn)練好的模型添加到堆疊框架的第一層,可以發(fā)現(xiàn)在最終表現(xiàn)上也有逐漸的改善,。當(dāng)添加RF模型時(stacking – 2),測試集上的R2不僅從0.710提高到0.743,,而且超過了RF本身的R2值,,RMSE值也有小幅下降。當(dāng)Adaboost模型被添加時(stacking – 3),,與stacking – 2相比,,準(zhǔn)確度只有輕微的提高。
綜上所述,,stacking - 3模型的R2和RMSE最高(0.745, 4.824 mg/g),,Adaboost模型的MAPE最小(17.56%)。原因可能是堆疊方法可以從不同的模型中提取更多可用的數(shù)據(jù)特征,。由于數(shù)據(jù)噪聲的存在,,模型在數(shù)據(jù)特征上往往表現(xiàn)不同。堆疊法可以提取各模型中表現(xiàn)較好的特征,,丟棄較差的特征,,有效地優(yōu)化預(yù)測結(jié)果,提高最終的預(yù)測精度,。Adaboost模型可以根據(jù)每個基估計器的預(yù)測誤差調(diào)整其權(quán)重,。錯誤率小的基估計器在最終結(jié)果中占有較大的權(quán)重。因此,,Adaboost模型得到最小的MAPE,。對于RF,,基估計量相互獨立,最終結(jié)果是所有基估計量的簡單平均值,,因此RF模型更容易受到異常值的干擾,。
圖4 訓(xùn)練集和測試集下不同模型性能比較
進一步分析每個基估計器對最終結(jié)果的貢獻。我們首先選擇已經(jīng)訓(xùn)練好的RF和Adaboost模型作為基估計器(圖5a,、b),。stacking - 4的綜合性能優(yōu)于RF。將DTR和MLR分別加入到stacking - 4模型中,,得到stacking - 5和stacking - 6模型,。結(jié)果如圖5c、f所示,。stacking - 5和stacking - 6模型之間存在非常小的差異,。同時,stacking - 4模型(R2 = 0.876)和stacking - 6模型(R2 = 0.779)在訓(xùn)練集上存在顯著差異,。
從某種意義上說,,DTR、RF和Adaboost模型(基于樹的模型)是同質(zhì)的,,因為DTR本身是RF(bagging & DTR|)和Adaboost(boosting & DTR)模型的基估計器,。因此,添加DTR不能使模型挖掘更多可用的數(shù)據(jù)特征,。這可能就是stacking - 5模型的性能變化不大的原因,。對于線性模型(MLR),它與基于樹的模型原理是不同的,,可以學(xué)習(xí)到一些新特征,。雖然在測試集上的表現(xiàn)略有下降,但在訓(xùn)練集上取得了進步,。模型的整體穩(wěn)定性得到了提高,。綜上所述,RF和Adaboost幾乎貢獻了所有的堆疊精度,,然后MLR有助于提高模型的穩(wěn)定性,。
最后,對如何正確配置堆疊模型提出了一些建議,。理想情況下,,堆疊策略的第一層中的基估計器應(yīng)該是“準(zhǔn)確和異構(gòu)的”。通過這種方式,,可以學(xué)習(xí)更多有價值的數(shù)據(jù)特征,。此外,為了避免過擬合,,第二層的元估計器通常選擇一個簡單的模型(線性或嶺回歸),,該模型使用第一層的輸出作為訓(xùn)練的輸入,。
圖5 進一步分析堆疊策略
作者信息
趙春江,博士,,江蘇大學(xué)農(nóng)業(yè)工程學(xué)院教授,,博士生導(dǎo)師。
主要研究方向:農(nóng)業(yè)智能系統(tǒng)與精準(zhǔn)農(nóng)業(yè)技術(shù)裝備,。
參考文獻:
Zhang, M.Z., Chen, T.E., Gu, X.H., Kuai, Y., Wang, C., Chen, D., & Zhao, C.J. (2023). UAV-borne hyperspectral estimation of nitrogen content in tobacco leaves based on ensemble learning methods. Computers and Electronics in Agriculture, 211.
https://doi.org/10.1016/j.compag.2023.108008
(空格分隔,最多3個,單個標(biāo)簽最多10個字符)
立即詢價
您提交后,專屬客服將第一時間為您服務(wù)