应用方向:
该论文在高光谱成像技术(HSI)上的应用方向主要集中在茶叶质量的非破坏性检测与评估。通过结合高光谱成像和化学计量学方法,研究实现了对藏茶中关键质量参数(如总酚类物质(TPs)和游离氨基酸(FAAs))的快速、精准预测和分级研究。该研究能推动藏茶质量控制和标准化管理,提高了产业效率,并为其他食品领域提供了新的非破坏性检测思路。
背景:
随着藏茶产业的逐步发展,准确、快速地评估其质量成为了一个重要问题。传统的茶叶质量评估方法主要依赖于感官评定和化学分析,这些方法不仅具有主观性,还存在一定的破坏性。为了克服这些限制,研究者开始探索了基于现代技术的非破坏性检测方法。
近年来,HSI在食品质量检测中得到了广泛应用,因其能够提供丰富的光谱信息并进行非破坏性检测。高光谱成像结合多变量分析技术能够有效提取样品的化学成分和物理特征,从而实现快速、准确的质量评估。
本研究聚焦于藏茶的质量检测,旨在利用高光谱成像技术和化学计量学方法(如多变量分析)对藏茶的主要质量指标(TPs和FAAs)进行定量分析以及对藏茶进行分级研究。该研究提供一种新的茶叶质量评估方式,以满足日益增长的藏茶产业对高效、精准检测技术的需求。
实验设计
1.1材料与方法
(1)样品制备
从四川雅安茶厂有限公司购买了三个等级的藏茶。藏茶的等级主要取决于茶叶的厚度。一级为毛尖,选用最嫩的茶叶;二级为雅西,通常是一芽一叶或一芽两叶;三级为金尖,通常每芽有三叶或四叶。茶叶被分为106个样本,其中一级样本33个,二级样本35个,三级样本38个,每个样本重6克。根据国家标准茶叶感官评价方法GB/T 23776-2018,邀请了专业茶叶评审员对茶叶等级进行感官评定。在确认样本后,实验分为两个步骤。第一步是将茶叶样本均匀地放入一个方形容器中(6.5 × 6.5 cm²),获取高光谱图像,并在图像采集后迅速将茶叶样本封装入密封袋。第二步是将样本送至四川农业大学茶叶专业实验室,进行TPs和FAAs的检测。图1为藏茶检测流程图。
图1.藏茶的检测流程图
(2)高光谱成像采集
高光谱图像由江苏双利合谱科技有限公司生产的Gaia Sorter高光谱分选仪获得。高光谱系统由成像光谱仪和CCD相机组成。该系统的光谱采集范围为387 ~ 1035 nm,光谱分辨率为2.8 nm,具有256个光谱通道。由于光谱采集开始和结束时暗电流的影响,仅保留420~1010 nm波段的信息作为原始光谱数据。所有茶叶样品都测量了3次。采样台移动速度设置为4.0 mm/s,采样距离设置为170 mm,相机曝光时间设置为16 ms。通过高光谱相机获取图像后,对获取的图像进行黑白校正。
采集图像后,通过分析软件从图像中提取光谱数据。该软件选择一个矩形(面积为100 × 100像素)作为感兴趣的区域。然后提取感兴趣区域每个像元的光谱数据,并计算所有像元的平均光谱作为样本的代表性光谱。
(3)化学成分测定
TPs的含量采用国家标准GB/T 8313-2018中的Folin-Ciocalteu比色法进行测定。FAAs的测定方法参照GB/T 8314-2013,采用茚三酮比色法。
(4)统计分析
所有实验均进行三次重复,并以均值 ± 标准差的形式呈现。统计分析使用SPSS软件进行,采用单因素方差分析加事后Duncan检验,P < 0.05被定义为具有统计学显著性。使用Origin 软件进行绘图。
(5)光谱预处理
除了样本的化学成分信息外,高光谱数据还包含一些不良影响,包括样本、工作环境和设备引起的随机噪声干扰,这些因素与研究对象无关,但可能影响模型的评估指标。因此,在建立模型之前,使用了Savitzky-Golay(SG)、SG-乘法散射校正(MSC)和SG-标准正态变量(SNV)方法进行预处理,以减少干扰信息的影响。
(6)特征提取
光谱共有256个波段,可能存在大量冗余信息,在一定程度上增加了数据处理时间,不利于建模。采用PCA算法对原始和预处理的光谱数据进行主成分分析,提取关键特征。
(7)机器学习建模
在藏茶含量预测中,采用AdaBoost、梯度增强决策树(Gradient Boosting Decision Tree,GBDT)和Extratree模型检测藏茶中TPs和FAAs含量。使用决策树(DT)、随机森林分类器(RFC)、K近邻(KNN)和支持向量机(SVM)等分类算法建立分类模型。
通过准确度、精密度和召回率来评估分类模型的性能,计算决定系数(R2)、均方根误差(RMSE)和残差预测偏差(RPD)来评估回归模型的性能。
1.2.结果与讨论
(1)统计结果
图2(a、b)为藏茶中TPs和FAAs的分布。TPs和FAAs的中位数和范围值因等级而异。TPs和FAAs的含量通常随着茶叶等级的增加而增加,因此,茶叶等级中TPs和FAAs的差异有统计学意义(P < 0.05)。虽然G1和G2在TPs分布图上的差异很小,但中位数不同。G1的TPs含量为8.42±0.61%,FAAs含量为1.4±0.36%。G2的TPs含量为8.22±0.48%,FAAs含量为1.05±0.17%。G3的TPs含量为4.99±0.51%,FAAs含量为0.36±0.09%。不同品级的藏茶内部成分差异显著。这些含量可以作为评价藏茶品级的可靠依据。
图2.(a)不同等级的TPs值(%);(b)不同等级的FAAs值(%)。图中G1、G2、G3分别代表茶叶的三个等级
(2)光谱数据特征描述、样本划分和数据降维
图3(a)为茶叶样品的原始光谱,图3(b-d)为各种预处理方法后的光谱。图3(e)显示了三个等级茶叶的平均光谱。采用SG和联合预处理方法处理后的光谱数据更加平滑,并且减少了噪声和来自环境和高光谱系统的某些不确定干扰。根据平均光谱,发现三个等级茶叶的光谱不相交,等级越高(G1为最高等级),茶叶的光谱反射越低。
图3.茶叶样品的光谱,(a)原始光谱;(b) SG后的光谱;(c) SG-MSC后的光谱;(d) SG-SNV后的光谱;(e)三个等级茶叶的平均光谱
不同品级的茶叶样品属于同一种,化学成分相同,因此在不同波长区域之间具有相似的光谱趋势。茶叶样品的光谱趋势相似,但不同等级茶叶样品的反射率不同,茶叶的等级越好,光谱反射率越低。前面部分的统计分析结果表明,茶叶等级越高(G1为最高等级),茶叶中TPs和FAAs的含量越高,因此茶叶中这两种成分的含量与之前的光谱反射率呈反比关系,也为使用HSI来区分藏茶的等级,为后续的建模和分析提供依据。
获得的高光谱图像波长范围为420 ~ 1010 nm。光谱区域的变化与有机分子中含氢基团(如C-H、N-H、O-H和S-H)的振动频率与不同水平的乘法吸收区域的组合一致。690 nm处的吸收峰较低,茶叶在该波段吸收红光较多,绿光较少,这可能与茶叶的叶绿素含量有关。在700-1010 nm范围内,由于叶片对近红外波段吸收较少,光谱上升明显,该波段差异较大可能是由于不同等级的内部成分差异较大。
PCA在模型中起到特征降维的作用,将原始光谱压缩为低维数据,压缩后的数据相互独立、正交。图4为三个等级(G1、G2、G3)的三维PCA分布图。图4(a),对应原始数据集的PCA得分,其中PC1占94.37%,PC2占4.44%,PC3占0.96%。累积信息方差贡献达到99.77%,表明新数据在保证谱所含信息量可靠有效的前提下,可以最大限度地发挥原始数据的特征,也减少了后续模型构建的输入量。此外,G2和G3之间存在重叠。根据以上分析,PCA无法完全分离数据集,这可能是由于两种等级的茶叶之间存在细微的差异。图4(b)是训练集和测试集随机分割数据集的PCA分布图。数据集的分布非常均匀,训练集和测试集的分布重叠,并且测试集中的样本包含了所有训练集样本的特征,从而保证了样本预测的可能性。
图4. 三维PCA散点图,(a)三个不同等级的划分;(b)训练集和测试集的划分
(3)TPs和FAAs的定量测定
为了预测藏茶中的TPs和FAAs以及建立藏茶等级的判别模型,将样本按2:1的比例随机分为训练集和测试集。表1(a、b)显示了三种回归方法结合不同预处理方法对TPs和FAAs的预测结果,并对所有数据进行PCA降维处理。
在TPs预测中,测试集中的Rp2都在0.9左右,RMSEP在0.43到0.58之间。在所有模型中,Extratree在训练集上的R2最高,Rc2 = 1, RMSEC= 0表明该模型能够准确预测,模型具有较高的学习能力。在FAAs预测中,测试集的Rp2范围为0.79 ~ 0.87,模型的RMSEP范围为0.16 ~ 0.20。所有模型的RPD均大于2,具有较高的信度,可用于模型分析。在保证训练集上的训练情况后,经过组合预处理,发现模型在测试集上得到了改进。SG- SNV-Extratree对TPs的预测Rp2 = 0.9248,RMSEP= 0.4842,RPD= 3.646,优于单一预处理SG的评价指标。在预测FAAs时,Adaboost、GBDT和Extratree中Rp2和RMSEP在联合预处理后的作用大多大于单一预处理方法。与Extratree相比,SG-MSC和SG-SNV的Rp2分别为0.8736和0.8565。结果表明,预处理方法的结合有助于提高模型的预测能力。
图5为TPs和FAAs预测模型的散点图。Extratree能提供较好的预测结果。TPs含量预测的最大误差为1%,FAAs含量预测的最大误差约为0.25%。SG-SNV-PCA-Extratree对TPs的预测效果最好。模型具有较高的R2、RPD和较低的RMSE (Rc2 =1,RMSEC=0,Rp2 =0.9248,RMSEP=0.4842,RPD=3.6460)。在FAAs的预测中,SG-MSCPCA-Extratree的预测效果最好,Rc2 = 1,RMSEC= 0,Rp2 = 0.8736, RMSEP= 0.1590,RPD= 2.8130。
图5. 用于茶叶样品的预测的模型散点图(a)为TPs的预测结果;(b)为FAAs预测结果
(4)检测茶叶等级分类模型的结果
在建立模型时,关键因素是选择最优的分类模型。在确定分类器之后,我们优化了参数,以获得最佳的分类模型。通过比较原始光谱和结合了三种预处理方法与PCA的模型,以及表2中的四种分类模型,最终得出了分类结果。
关于预处理方法,在没有预处理的分类方法中,结果并不理想。SG-SNV和SG-MSC结合PCA-SVM的结果优于单独使用SG。这表明,预处理模型的组合不仅使光谱更加平滑,而且改善了训练效果,更有利于建模。
关于分类模型。RFC和SVM下的测试结果优于DT和KNN。为了确定最优参数,采用遗传算法确定SVM中的参数值。结果表明,SVM的最佳参数,选择核函数的RBF,gamma= 0.6952, degree = 1,C= 1.2341。在此基础上,得到了基于最优参数的分类结果。SG-SNV-PCA-SVM模型效果最好,训练集和测试集的准确率、查全率和精密度均为100%,能够准确预测藏茶的品级。
结论
本研究通过化学计量学方法确定了藏茶中的TPs和FAAs,并通过高光谱成像(HSI)和多变量分析对其进行了预测。结果表明,藏茶中的TPs和FAAs含量存在显著差异(p < 0.05)。研究表明,HSI能够实现茶叶质量参数的非破坏性检测。本研究将茶叶检测从外部特征的评估转变为外部和内部特征的综合评估,这将有助于提高藏茶行业的检测效率,促进雅安藏茶产业的发展,推动藏茶经济的增长,并为其他食品领域提供一种快速、非破坏性的检测方法。
推荐产品
作者简介
通讯作者:康志亮教授,四川农业大学,博导
参考文献
论文引用自二区文章:Yan Hu , Peng Huang , Yuchao Wang , Jie Sun , Youli Wu , Zhiliang Kang. Determination of Tibetan tea quality by hyperspectral imaging technology and multivariate analysis. Journal of Food Composition and Analysis 117. (2023) 105136 https://doi.org/10.1016/j.jfca.2023.105136