网站首页 > 行业应用 > 客户文章

基于集成学习方法的烟草叶片氮含量无人机高光谱估测

发布者：发布时间：2023-08-02

背景

烟草生产是中国西南地区农业和农村经济发展的关键支柱。为了给烟叶质量优化提供信息支持，减轻烟农的劳动负担，对快速、准确、实时的叶片氮含量（Leaf nitrogen content, LNC）检测方法有很大需求。无人机机载高光谱遥感（Hyperspectral remote sensing, HRS）能够以非破坏性的方式获取成像光谱数据，实现烟叶LNC的快速获取。

一般来说，可以使用经验方法或物理方法建立模型，或者两者相结合，以实现目标性状的反演。为了解决单个反演方法的异质性，一些学者提出了作物表型性状估计的集成学习框架。与试图从训练数据中学习一个假设的普通机器学习方法不同，集成方法试图构建一组假设并将它们组合起来使用。集成学习的思想是结合几种不同的方法来增强输入的多样性，以挖掘更多的数据特征，从而提高模型的整体性能。

本研究旨在建立一种准确有效的模型，利用无人机机载高光谱图像估计烟草LNC。研究中测试了几种基于三种集成学习策略的典型算法，包括随机森林（RF）回归、自适应增强（Adaboost）回归和堆叠回归。此外，我们选择了*常用的偏*小二乘回归（PLSR）作为基准模型。主要创新点有：（1）研究了无人机机载HRS在烟草LNC估算中的潜力；（2）评估了不同集成学习策略（如bagging、boosting和stacking）下模型的性能；（3）探索基于堆叠策略提高模型预测精度的可行方法。

试验设计

江苏大学赵春江教授团队利用Gaiasky-Mini-VN高光谱相机（江苏双利合谱公司）获取了研究区内不同氮处理下烟草冠层的高光谱影像，其波段范围为400 ~ 1000 nm，波段数为256。各类地物的光谱曲线如图1所示。在整个田间试验过程中，每约20天采集一次冠层图像，从移栽后35天开始，一直持续到收获。

影像获取后，第一步，利用ExG去除背景，并提取平均反射率。第二步，利用连续投影算法（SPA）进行数据降维。第三步，建立LNC估计模型，研究中选择了*常用的PLSR作为基准模型（图1）。此外，采用集成学习方法来完成上述相同的回归任务。集成学习框架下有三种建模策略，即bagging、boosting和stacking。本研究以决定系数（R²）、均方根误差（RMSE）和平均绝对百分比误差（MAPE）作为评价指标。

图1 本研究主要步骤流程图

结论

本研究对全波段高光谱反射率数据进行主成分分析（PCA），提取对LNC变化更敏感的主成分（PC）。如图2所示，选取前80个PC进行显示，当主成分数为4、6、7时，累积方差贡献率（AVCR）分别超过99.5%、99.8%、99.9%。我们选择SPA作为二次降维算法。与PCA不同，SPA可以通过选择对LNC变化更敏感的变量来降低数据维度，*终保留了15个波段（图3）。

图2 前7个PC贡献了超过99.9%的信息

图3 选择的15个波段

从图4可以看出，PLSR的R²相对较低，但训练集与测试集之间的差距较小。由于PLSR结合了PCA和MLR。在这里，我们也给出了MLR的预测结果，训练集和测试集之间的差距也很小（图4c、4d）。结果表明，训练良好的MLR模型具有良好的稳定性，样本分布均匀，同时也证明了我们的数据集划分是合理的。

图4g – 4p显示了集成学习方法的结果，包括RF、Adaboost和堆叠模型。RF和Adaboost都是基于决策树回归（DTR），为了避免过拟合，我们将max_dept的值设置为5。DTR的预测结果如图4e和图4f所示。对于堆叠模型，我们采用双层结构，MLR和DTR模型（即stacking – 1）作为第一层的基估计器，MLR作为第二层的元估计器。结果表明，stacking - 3模型预测效果*好。与DTR模型在测试集上的预测结果相比，stacking - 1模型得到了显著增强，但相较于SPA-MLR改进幅度较小。结果表明，叠加策略可以传递基估计器的优点。通过组合多个模型来挖掘更有价值的数据特征。在图4m - 4p中也可以看到类似的现象。通过将已经训练好的模型添加到堆叠框架的第一层，可以发现在最终表现上也有逐渐的改善。当添加RF模型时（stacking – 2），测试集上的R²不仅从0.710提高到0.743，而且超过了RF本身的R²值，RMSE值也有小幅下降。当Adaboost模型被添加时（stacking – 3），与stacking – 2相比，准确度只有轻微的提高。

综上所述，stacking - 3模型的R²和RMSE最高（0.745, 4.824 mg/g），Adaboost模型的MAPE最小（17.56%）。原因可能是堆叠方法可以从不同的模型中提取更多可用的数据特征。由于数据噪声的存在，模型在数据特征上往往表现不同。堆叠法可以提取各模型中表现较好的特征，丢弃较差的特征，有效地优化预测结果，提高最终的预测精度。Adaboost模型可以根据每个基估计器的预测误差调整其权重。错误率小的基估计器在最终结果中占有较大的权重。因此，Adaboost模型得到最小的MAPE。对于RF，基估计量相互独立，最终结果是所有基估计量的简单平均值，因此RF模型更容易受到异常值的干扰。

图4 训练集和测试集下不同模型性能比较

进一步分析每个基估计器对最终结果的贡献。我们首先选择已经训练好的RF和Adaboost模型作为基估计器（图5a、b）。stacking - 4的综合性能优于RF。将DTR和MLR分别加入到stacking - 4模型中，得到stacking - 5和stacking - 6模型。结果如图5c、f所示。stacking - 5和stacking - 6模型之间存在非常小的差异。同时，stacking - 4模型（R² = 0.876）和stacking - 6模型（R² = 0.779）在训练集上存在显著差异。

从某种意义上说，DTR、RF和Adaboost模型（基于树的模型）是同质的，因为DTR本身是RF（bagging & DTR|）和Adaboost（boosting & DTR）模型的基估计器。因此，添加DTR不能使模型挖掘更多可用的数据特征。这可能就是stacking - 5模型的性能变化不大的原因。对于线性模型（MLR），它与基于树的模型原理是不同的，可以学习到一些新特征。虽然在测试集上的表现略有下降，但在训练集上取得了进步。模型的整体稳定性得到了提高。综上所述，RF和Adaboost几乎贡献了所有的堆叠精度，然后MLR有助于提高模型的稳定性。

最后，对如何正确配置堆叠模型提出了一些建议。理想情况下，堆叠策略的第一层中的基估计器应该是“准确和异构的”。通过这种方式，可以学习更多有价值的数据特征。此外，为了避免过拟合，第二层的元估计器通常选择一个简单的模型（线性或岭回归），该模型使用第一层的输出作为训练的输入。

图5 进一步分析堆叠策略

作者信息

赵春江，博士，江苏大学农业工程学院教授，博士生导师。

主要研究方向：农业智能系统与精准农业技术装备。

参考文献：

Zhang, M.Z., Chen, T.E., Gu, X.H., Kuai, Y., Wang, C., Chen, D., & Zhao, C.J. (2023). UAV-borne hyperspectral estimation of nitrogen content in tobacco leaves based on ensemble learning methods. Computers and Electronics in Agriculture, 211.

https://doi.org/10.1016/j.compag.2023.108008

上一条基于高光谱影像和深度卷积神经网络的玉米种子品种分类

下一条基于局域-全局特征增强网络和无人机高光谱遥感的荒漠草地物种分类