应用方向:
高光谱成像技术凭借其强大的空间和光谱信息获取能力,已成为植物产品地理来源识别与质量控制的前沿工具。根据研究,高光谱技术结合深度学习模型,可以实现枸杞的地理来源精准分类,准确率高达95.63%。通过特征波长提取,不仅显著提高了分析效率,还增强了数据的科学解释性。此外,高光谱与化学分析(如NMR)的结合,能够进一步揭示样品化学成分与光谱特征的关联,为复杂样品的快速、非破坏性检测提供创新解决方案。
背景:
枸杞以其卓越的营养价值和显著的药用功效享誉全球,尤其是在抗氧化、抗炎、免疫调节和抗肿瘤等方面表现突出。这些特性与其地理来源密切相关,地理来源不仅决定了其化学成分和药用效果,还显著影响市场价值。因此,快速、准确地识别枸杞的地理来源对于质量控制和市场调节至关重要。传统的地理来源识别方法主要依赖于物理化学特性或感官评价,但这些方法通常依赖专家经验,缺乏客观性和精确性。近年来,现代分析技术(如近红外光谱、超高光谱成像(HSI)、核磁共振(NMR)和液相色谱-飞行时间质谱)在地理来源鉴定中显示出强大优势。其中,HSI提供了丰富的光谱和空间信息,NMR在成分识别与定量分析中表现突出。然而,这些方法单独使用时存在一定局限性,如数据复杂性高、维度大,导致传统机器学习模型难以有效处理。
为克服上述挑战,深度学习技术被引入到分析过程。这些方法能够从高维数据中自动提取特征,能够有效利用光谱与空间特征,从而显著提升地理来源的分类精度。同时,SHAP解释模型的引入解决了深度学习的“黑箱”问题,增强了结果的可解释性。因此,该研究通过将HSI和NMR技术与深度学习技术相结合,用于识别枸杞的地理来源。具体目标包括:(i) 通过将HSI数据与SHAP方法相结合,改进ResNet-34模型,实现枸杞地理来源的判定;(ii) 利用NMR技术识别枸杞的地理来源及其特定地理标记(GI);(iii) 建立枸杞地理标记物与HSI数据中提取的特征波长之间的关联。
实验设计
1.1材料与方法
(1)样品制备
干燥后的枸杞样品由中国宁夏农业产品质量标准与检测技术研究所下属的农业产品质量监测中心提供。所有枸杞样品均采自四个主要产区的当地农场,包括宁夏同心县(TX)和宁夏中宁县(ZN,品种分别为ZN1和ZN2)、青海诺木洪(NMH)以及青海德令哈(DLH)。
宁夏地区的枸杞样品于2022年6月下旬至7月上旬采收,青海地区的样品则于2022年9月完成采收。不同产地和品种的枸杞均采用人工手工采摘的方式,从每棵枸杞树的东、南、西、北四个方向分别采摘,以保证采样的全面性。为确保数据分析的一致性并减少潜在偏差,每个产地的样品经过严格筛选,尽量保持大小均匀。采摘完成后,枸杞在自然条件下日晒干燥数日。最终共获得525份样品(每个产地n=105)。样品的两面分别标记为A面和B面,其RGB图像如图1所示。随后,所有样品均迅速冷冻保存于-80°C环境中,以保持其生化和物理特性。
图1. 不同地理和品种产地的代表性枸杞样品的RGB图像
(2)HSI和1H核磁共振(NMR)采集和数据预处理
HSI数据采集及光谱预处理:HSI数据在可见光-近红外(VNIR)高光谱成像系统(GaiaField-V10E,江苏双利合谱科技有限公司,江苏无锡,中国)上获取。该系统由高光谱成像仪(GaiaField-V10E)、透镜(HSIA-OL23)、光源(HSIA-LS-T-200 W)、标准漫射参考板(HSIA-CT-400×400,双利合谱,中国)和安装有SpecView软件的计算机组成。将枸杞样品放置在离透镜35 cm的工作台上。分别采集枸杞两侧的HSI数据,记为A面和B面。然后对枸杞的高光谱数据进行黑白校正。为了减少光谱外围噪声波动的影响,校正后的高光谱图像中初始6个波长被消除。随后,对枸杞高光谱数据进行了准确的分割处理。每个枸杞被指定为一个独特的兴趣区域,以方便深入分析。
1H NMR采集及光谱预处理:在完成所有枸杞样品的HSI数据采集后,从每个地理产地和品种中随机挑选30个枸杞样品,迅速在液氮中冷冻,并使用研钵和研杵将其研磨成细粉。每个样品中取100 mg的粉末,溶解于甲醇-氯仿-水的混合溶剂中,体积比为4:4:6。混合液通过涡旋混合1分钟以确保充分混匀,然后在冰浴中冷却15分钟以促进相分离。冷却后,溶液在4°C条件下离心10分钟。小心将上清液转移至5 mL的Eppendorf管中,并使用样品浓缩器蒸发30分钟后,进行24小时的冷冻干燥,以去除残留的甲醇和水。干燥残渣用600μL的氘化磷酸盐缓冲液(100 mM,pH = 5.7)重新溶解,该缓冲液中含有0.05%的TSP(钠盐3-(三甲基硅基)丙酸-2,2,3,3-d4)。混合液再涡旋混合5分钟后,在10,000 g × 4 °C条件下离心10分钟。最后,将550 μL的上清液转移至5 mm NMR管中,用于采集1H NMR光谱数据。
所有枸杞样品的1H NMR光谱均使用850 MHz的Bruker AVANCE III核磁共振波谱仪(Bruker公司,德国卡尔斯鲁厄)采集,配备CPTCI探头,工作频率为850.32 MHz。1H NMR光谱通过ZGPR脉冲序列采集,参数设定如下:温度为298 K,谱宽为14 KHz,数据点数为32 K,弛豫延迟为4.0秒,采集时间为1.9秒,共64次扫描。
所有枸杞样品的1H NMR光谱数据均通过MestReNova软件(V14.0.0,Mestrelab Research,西班牙)进行预处理。处理步骤包括傅里叶变换、相位和基线校正,以及利用TSP的单峰信号(δ0)对光谱进行对齐。在δ0-10范围内,将光谱分割为宽度为0.002 ppm的区间,并移除残留甲醇峰(δ3.35-3.37)和水峰(δ4.75-4.90)的干扰信号。对TSP峰(δ0)进行归一化处理,使其峰强值为9,便于后续的定量分析。最终,将积分数据导入SIMCA 14.1软件进行全面的多变量统计分析。
(3)枸杞的地理来源鉴定
传统机器学习:采用逻辑回归(LR)和采用基于径向基函数核函数的非线性支持向量机(SVM)进行枸杞产地的识别。为了优化SVM模型的性能,使用网格搜索方法调整惩罚因子(C)和核参数(γ)。具体来说,惩罚因子C从20.1变化到250,核参数γ从2 - 15调整到2 - 10。
改进的ResNet-34:与传统机器学习算法相比,深度学习模型在分类任务中表现出更高的准确性,这主要归因于其能够自动从高维数据中提取更全面的特征。这种优势在高精度地理来源识别中得到了验证。如今,ResNet被广泛应用于各种分类任务。考虑到HSI数据的复杂性和高维性,以及模型的性能要求,本研究选择了一种改进版的ResNet-34架构。
表1展示了改进版ResNet-34的架构,说明其由五个模块组成,每个模块包含36个卷积层,最终连接至一个全连接层。与原始ResNet相比,最显著的区别在于初始卷积层Conv1_x的修改。传统的2D卷积层被替换为3D卷积层,以更好地适应枸杞HSI数据的复杂性。Conv1_x层包含三个3D卷积子层和一个2D卷积子层,各自配备不同尺寸的卷积核:3 × 3 × 17、3 × 3 × 11、3 × 3 × 7(3D卷积)和3 × 3(2D卷积)。每次卷积操作均应用修正线性单元(ReLU)激活函数。这一架构调整的动机是利用HSI数据中固有的多波段图像特性,这不仅提供了丰富的空间和光谱信息,也显著增加了数据的复杂性和体量。整个枸杞HSI数据集(包括A面和B面)随机分为训练集(占70%)和测试集(占30%)。训练集用于优化改进版ResNet-34模型的参数,测试集则用于评估模型的预测性能。在本研究中,学习率、批量大小、训练周期数、损失函数和优化器分别设置为0.001、16、200、交叉熵损失和Adam。这些参数的选择旨在有效处理具有64 × 64像素空间维度和114个光谱波段的图像。
特征波长提取:虽然HSI提供了丰富的光谱和空间信息,但其高维性和共线性以及冗余性对计算效率和模型鲁棒性构成了重大挑战。此外,深度学习模型的“黑箱”性质(其特征是缺乏固有的可解释性)进一步使其应用复杂化。为了解决这些问题,有必要对预处理后的光谱进行特征提取,以尽量减少非相关变量的影响,消除冗余信息,从而提高模型的计算效率和性能。
利用SHAP技术对模型输出进行解析,提取了400 - 1040 nm光谱范围内的特征波长。计算SHAP值,得到各光谱波段各数据点的贡献分数,这些SHAP值代表各光谱波段对模型的重要程度。该方法不仅揭示了HSI数据中每个光谱波段对全球范围内预测结果的重要性,而且还描绘了其在每个HSI区域内的影响。在本研究中,迭代选取贡献率最高的5%以内的光谱波段图像作为模型的训练数据,每一步递增5%,直到模型的预测精度接近于原始模型。
(4)统计分析
所有NMR积分数据随后通过SIMCA 14.1软件进行多变量统计分析。在此之前,数据进行了单位方差缩放,以突出微量成分的差异。使用偏最小二乘判别分析(PLS-DA)来揭示不同产地之间的组成差异,随后应用正交偏最小二乘判别分析(OPLS-DA)以识别枸杞的地理或品种标志物。PLS-DA和OPLS-DA模型的性能通过模型参数R2X、R2Y和Q2进行评估。此外,为了检测潜在的过拟合,模型进行了200次置换检验。
枸杞中各成分的定量通过比较每种成分特征峰的积分与内标物(TSP)的积分实现,浓度以平均值 ± 标准偏差(SD)表示,基于三次重复实验获得。在本研究中,构建了一个四维火山图以展示倍数变化、p值、绝对相关系数(r)和投影变量重要性(VIP)。枸杞的地理标志(GI)标志物基于以下严格标准进行识别:倍数变化不在0.8–1.2范围内,p < 0.05,|r| > 0.90,且VIP值位于前5%。
为了分析同一枸杞样品中NMR数据与HSI数据之间的相关性,计算了它们的Pearson相关系数。此外,使用精度评估了LR、SVM和改进的ResNet-34模型在识别枸杞地理起源方面的性能。
1.2.结果与讨论
(1)基于HSI数据的枸杞产地识别
图2显示了不同地理产地的枸杞样品A面和B面的平均反射率。不同产地的枸杞样品中相似的光谱趋势表明相似的化学成分,而光谱强度的差异表明不同成分的浓度不同。同时,图2a和b显示了枸杞样品的A面和B面光谱差异很小,这一发现意味着从单侧采集HSI数据是一种可行的方法,因为尽管样本两侧的外部和内部特征存在潜在变化,但它不会引入重大误差。在400 - 560nm的可见光光谱中,枸杞样品的光谱反射率明显较低,曲线重叠,这可能是由于枸杞的红色表面在该波长范围内反射的光较少。相反,在560 - 850nm波长范围内,枸杞表面的反射率逐渐增加,光谱曲线呈现出微小的差异。虽然不同产地的枸杞样品的反射率曲线开始出现差异,但差异仍然很小。枸杞在922 nm和985 nm处有小谷,在963 nm处有小峰,这些特征表明了O-H拉伸的第二和第一泛音。
图2.来自不同地理和品种产地的枸杞样品的(a)A面和(b)B面平均反射光谱
尽管不同地理来源或品种的枸杞在光谱上存在差异,但不能通过视觉比较来有效区分。此外,相似的颜色和形状增加了视觉区分的难度。因此,选择合适的分类策略对其进行准确分类就变得至关重要。为了获得更好的分类结果,本研究采用了机器学习技术。表2显示了线性(LR)和非线性(SVM)模型对枸杞地理来源识别的分类结果。在A侧和B侧的测试数据集上,LR和SVM模型对枸杞产地的分类准确率均未超过90%,但当使用一侧数据训练的模型对枸杞产地进行识别时,LR模型和SVM模型的预测准确率分别达到95.24%和99.43%。总体结果表明,机器学习结合HSI技术有效地识别了枸杞的起源。此外,通过从枸杞的任何一侧收集HSI数据,可以实现可靠的地理来源追溯。
考虑到LR和SVM模型的分类准确率不足90%,引入深度学习对高维HSI数据进行进一步分析。正如之前的研究所指出的那样,深度学习模型需要大量的训练数据集。因此,我们将来自枸杞两侧的HSI数据纳入了包含730个样本的训练数据集和包含320个样本的测试数据集。为了避免同一枸杞样品的A面或B面被分配至不同的数据集(从而影响验证结果的完整性),同一样品的两面被策略性地分配至相同数据集。基于RGB图像和全光谱HSI数据构建的ResNet-34与改进版ResNet-34模型的混淆矩阵分别展示于图3a和b及图3c和d中。矩阵对角线上的值表示正确分类的样本数和真实阳性率,而非对角线上的值则对应误分类样本数和假阴性率。值得注意的是,当以HSI数据为输入时,改进版ResNet-34模型在所有产地(TX、NMH、DLH、ZN1和ZN2)中实现了95.63%的最高分类准确率。这一结果较传统机器学习方法(LR和SVM)提高了6.26%。这一性能提升归因于HSI数据提供的丰富空间和光谱信息。改进版ResNet-34模型中3D和2D卷积层的结合,能够有效利用光谱和空间特征图,从而最大化模型的预测准确性。
图3.在测试数据集上使用ResNet-34模型(a和b)和改进的ResNet-34模型(c和d)对五种枸杞样品进行地理来源识别的混淆矩阵
总的来说,改进的ResNet-34模型在基于起源的五种不同类型的枸杞分类中显示出较高的准确性。然而,通过3D卷积运算利用全谱HSI数据增加了计算需求和复杂性。此外,深度学习模型固有的“黑箱”特征在可解释性方面提出了挑战。为了减少信息冗余并提高模型的可解释性,我们使用SHAP来识别HSI数据中对地理起源识别贡献最大的光谱带区域。SHAP值代表了每个光谱波段对模型预测能力的贡献。对枸杞地理来源分类有重要贡献的光谱波段主要从633 nm延伸到1040 nm。随着光谱波段的增加,该模型对枸杞地理来源的识别精度逐渐提高(图4)。实际上,在保留35%的光谱波段(n = 39)的情况下,该模型的分类精度仍然保持在95.63%的高水平,与全光谱HSI数据的分类精度相当。光谱波段的减少也导致运行时间减少29.9%。该方法不仅有效地提高了处理速度,而且提高了产地识别的效率,在准确性和计算效率之间取得了平衡。
图4.利用改进的ResNet-34对不同波段子集的枸杞产地识别数据集精度进行测试
(2)枸杞的地理来源及标记物的NMR鉴定
枸杞样品的一维1H NMR提供了详细的光谱分布,通过分析峰强度和化学位移来辨别成分组成和浓度的差异,有助于识别地理来源。在δ0.8 ~ δ3.5的高场区,主要与氨基酸和有机酸有关,但差异不大。但在丙氨酸(δ1.48)和一种未知成分(δ1.51)浓度上存在显著差异,其中宁夏枸杞(TX、ZN1和ZN2)含量显著高于青海枸杞(NMH和DLH)。δ3.5 ~ δ5.5的中低场区以各种糖类为主,δ6.0 ~ δ10.0的低场区以芳香族化合物为主。通过比较化学位移和耦合常数与数据库中的条目,包括FooDB和HMDB,以及与先前报告的相关性,从枸杞的核磁共振光谱中确定了62个组分。
对枸杞的化学成分分析显示其含有丰富的氨基酸、有机酸、糖类、核苷和其他生物活性化合物。枸杞的氨基酸和有机酸含量特别丰富,十几种氨基酸和五种有机酸的浓度在0.1至1mg /g之间。这些成分可能提供各种健康益处,例如产生免疫刺激作用,增强抗氧化能力,并保持健康的代谢率。具体而言,异亮氨酸是一种支链氨基酸,已被证明可以通过影响器官、细胞和反应性物质来增强免疫系统,并可能上调宿主防御肽(如β-防御素)的表达,这对先天免疫和适应性免疫至关重要。甜菜碱是枸杞的一种独特标记物,已被证明可以通过增强抗氧化活性和减少炎症介质来减轻四氯化碳(CCl4)诱导的肝损伤。有机酸,包括羟基丁酸、乙酸、苹果酸和柠檬酸,对枸杞的感官特性(如味道、风味和颜色)有重要影响。枸杞是一种久负盛名的中草药和滋补食品,其主要成分是枸杞多糖,尤其是枸杞多糖是枸杞中最有价值的功能成分之一。最近的研究表明,LBP具有一系列的生物活性,包括眼神经保护、抗衰老特性、抗氧化作用和免疫调节作用。在本研究中,LBP由半乳糖、鼠李糖、α-木糖、β-木糖、α-葡萄糖和β-葡萄糖组成,其浓度差异很大,在不同地理产地的浓度范围为0.19 ~ 103.95 mg/g。此外,尽管咖啡酸、肉桂酸和维生素B6等芳香化合物的浓度很低(含量超过0.1 mg/g),但它们对人体健康起着至关重要的作用,包括抗氧化和抗菌特性,以及减少焦虑和增强视觉功能。虽然不同产地的枸杞在成分上存在显著差异,但不能仅仅通过目测比较来确定其地理来源。因此,采用多元统计分析来确定每个起源的独特GI标记。
图5展示了基于枸杞NMR数据的OPLS-DA得分图和对应的火山图 ,分别针对不同产地的枸杞样品进行成对比较,并附上模型参数,包括R²X、R²Y和Q²值。图5a展示了不同中国省份枸杞样品的比较分析。其中,OPLS-DA得分图(图5a左图)显示宁夏和青海样品沿预测成分(横轴)呈现显著分离。模型的高拟合度(R²Y = 0.871)和预测能力(Q² = 0.833)表明该模型在区分地理来源方面的有效性。火山图(图5a右图)用于探索宁夏和青海枸杞的地理标记物(GI标记)。根据“材料与方法”部分中详细描述的筛选标准,地理标记物被筛选出来(见图5a右图)。结果表明,青海枸杞的谷氨酸(Glu)、苹果酸(MA)和脯氨酸(Pro)含量分别是宁夏样品的1.96倍、1.91倍和1.68倍。而宁夏枸杞则以二羟基丙酮(DHA)含量显著较高,其水平是青海枸杞的2.7倍。
其中,谷氨酸(Glu)以其多方面的生理作用而被广泛认可,包括抗氧化、应对胁迫以及作为内源性抗癌剂的作用,其衍生物在癌症治疗中的潜力也备受关注。脯氨酸(Pro)不仅是蛋白质的重要组成部分,还显著参与细胞对渗透压和脱水胁迫的响应。此外,脯氨酸是枸杞中最丰富的游离氨基酸,既作为渗透调节剂,也作为抗氧化剂发挥作用。青海枸杞中显著较高的谷氨酸和脯氨酸浓度将增强其抗氧化和渗透调节功能
图5. 基于枸杞NMR数据的OPLS-DA评分图(左图)和相应的火山图(右图)
图5b和图5c分别展示了宁夏和青海省内不同县域枸杞样品的比较分析。OPLS-DA得分图(图5b和图5c左图)显示TX和ZN以及NMH和DLH样品在预测成分(横轴)上呈现出显著分离。模型参数表明区分地理来源的有效性:TX与ZN的R²Y = 0.967,Q²= 0.936,NMH与DLH的R²Y = 0.966,Q²= 0.936,进一步验证了模型的预测能力和可靠性。火山图(图5b右图)及统计数据揭示,ZN枸杞中包括1-甲基尿酸、胆碱、甜菜碱、咖啡酸、谷氨酸(Glu)、鸟苷、核糖内酯、苏糖醇和丝氨酸在内的多种营养成分浓度显著高于TX样品,而蔗糖、甲酸和3-甲基黄嘌呤在ZN样品中的浓度显著低于TX。丰富的营养成分及独特的香气赋予ZN枸杞更强的抗氧化活性、减少炎症介质及神经保护作用,这在以往研究中也得到了验证。NMH与DLH样品的火山图(图5c右图)分析发现了17种显著差异的成分,包括乙醛酸、苹果酸、α/β-半乳糖醛酸、异亮氨酸、1-磷酸半乳糖、异丁酸、蔗糖、α/β-木糖、鼠李糖、肉桂酸、麦芽糖、古罗糖酸内酯、麦芽三糖、精氨酸和氨基葡萄糖6-硫酸酯。其中,有13种成分在NMH枸杞中的浓度显著高于DLH样品。尤其是乙醛酸、异亮氨酸和异丁酸在NMH样品中的浓度分别是DLH样品的4.0倍、2.09倍和2.64倍。研究表明,异亮氨酸在调节先天免疫和适应性免疫中起重要作用。异丁酸作为一种短链脂肪酸,由异亮氨酸等支链氨基酸发酵产生,已被证明可缓解DSS诱导的慢性结肠炎。这种作用主要归因于其增强肠道屏障功能的能力,从而突显NMH枸杞在胃肠健康领域的潜在治疗优势。
宁夏中宁县因其独特的地理和气候条件,为枸杞的高品质种植提供了得天独厚的自然环境。然而,不同品种的枸杞在化学和营养成分上存在差异。OPLS-DA模型清晰地将ZN1与ZN2沿横轴分离(图5d左图),并表现出稳健的模型参数(R²Y = 0.898,Q²= 0.846)。通过四项筛选标准,火山图(图5d右图)中鉴定出5种显著差异成分。葡萄糖胺6-磷酸和古罗糖酸内酯在ZN1中的浓度高于ZN2,而赖氨酸、绿原酸和肉桂酸则表现出相反趋势。其中,葡萄糖胺6-磷酸作为葡萄糖胺的衍生物,在针对中度至重度膝骨关节炎患者的临床试验中,被证明能够显著缓解疼痛并改善功能活动。赖氨酸是人体必需氨基酸,无法由人体自身合成,具有广泛的健康益处,包括促进正常生长、帮助肉碱生成以及减轻焦虑。此外,赖氨酸在癌症治疗中的潜力也备受关注。研究表明,赖氨酸的代谢影响组蛋白短链化,这是一种表观遗传修饰,从而调控癌症免疫。
(3)地理标志与HSI特征波长相关性分析
HSI和NMR都证明了在确定枸杞的地理起源方面的有效性。NMR,特别是与多元统计分析相结合,成为识别GI标记物的有力工具。它提供了可以用来区分不同来源的化学信息的深度。然而,尽管在HSI中通常采用特征波段选择的做法,但这些特征波长与样品中特定成分之间的相关性通常仍未被探索。这一差距可能会限制HSI数据在潜在化学变化方面的可解释性。此外,虽然NMR提供了丰富的生化见解,但它面临着挑战,例如食品基质样品制备的复杂性,以及相关成本可能令人望而却步。这些因素可能会阻碍快速、无损、高通量分析的实施,而这对于高效、可扩展的枸杞原产地溯源过程至关重要。为了解决这些限制,开发结合这两种技术的优点,同时尽量减少各自缺点的策略是至关重要的。该综合方法为枸杞产地鉴定提供了一种更全面、更有效的方法。
通过HSI-NMR Pearson相关分析,成功地揭示了枸杞特征波长与GI标记之间的相关性(图6)。不同产地枸杞的GI标记在单个光谱波段上表现出显著的相关性,p值<0.001,Pearson相关系数(R)在自由度为150时超过0.264。在633 ~ 768 nm范围内,大部分物质与枸杞的红色光谱具有明显的相关性,这与枸杞的天然红色相一致。对于不同省份的枸杞,以633.6 nm、665.6 nm和980 nm为中心的HSI波段与GI标记物呈极显著相关(p < 0.001)。其中,633.6 nm的HSI波段与脯氨酸(δ1.98)、苹果酸(δ2.37)和咖啡酸(δ7.33)密切相关。665.6 nm处与谷氨酸(δ2.08)密切相关,980 nm处与二羟丙酮(δ4.44)和葫芦巴碱(δ9.13)相关。研究表明,以643 nm为中心的波段与氨基酸的第三和第四泛音区域有关,包括脯氨酸和谷氨酸。此外,976 nm至987 nm的波长范围对应于油营养物中C-H(CH/CH2/CH3)键的第三泛音区域和O-H键的第三泛音区域。随后,利用663.6 nm、665.6 nm和980 nm三个最显著相关波段的图像,利用改进的ResNet-34建立了枸杞起源分类模型。仅使用三个波长的光谱图像来区分宁夏和青海枸杞样品的准确率达到95%。在不同县域的枸杞 GI标记物(TX-ZN和NMH-DLH)中,特定生物标记物与HSI波段之间存在显著正相关(p值<0.001)。异亮氨酸(δ0.96)、精氨酸(δ1.68)、苹果酸、胆碱(δ3.21)、1-甲基尿酸(δ3.33)、丝氨酸(δ3.96)、果糖(δ4.12)、绿原酸(δ7.19)和咖啡酸作为GI标记与以633.6 nm为中心的HSI波段相连。谷氨酸(665.6 nm)、苏糖醇(δ3.64)、硫酸氨基葡萄糖(δ4.91)和α-木糖(δ5.19)均与980 nm处的谱带相对应。对于不同品种的枸杞(ZN1 ~ ZN2),赖氨酸和绿原酸在633.6 nm处与HSI波段呈显著相关(p值<0.001)。古洛内酯(δ4.73)和葡萄糖胺6磷酸(δ5.45)在801 nm和719.3 nm处与HSI波段的相关性较弱(p < 0.05)。ZN1和ZN2品种的鉴定准确率较低,为93.75%,主要是由于其种植地点较近。当比较全光谱HSI数据和SHAP提取的特征波长时,使用与GI标记物高度相关的光谱图像,运行时执行时间分别显著降低46.26%和33.99%。这表明有针对性的光谱图像分析方法可以在不影响精度的情况下提高效率。
图6.枸杞地理标志标记的HSI-NMR Pearson系数相关图
本研究结果表明,GI标记物与HSI特征波长的相关性有效地阐明了光谱波段与枸杞化学成分之间的联系。这种相关性不仅增强了我们对枸杞光谱特征的理解,而且强调了开发便携式多光谱设备的潜力。该装置可提供一种无创、低成本、高通量的地理来源鉴定方法。
结论
本研究提出了一种将HSI和NMR技术与深度学习相结合,用于准确识别枸杞的地理来源及其GI的新方法。改进的ResNet-34模型通过整合3D和2D卷积层,在利用HSI数据进行产地识别中实现了95.63%的分类准确率。此外,采用SHAP方法选择特征波长,与使用全光谱HSI数据的分类准确率相当,但运行时间缩短了29.9%。研究还表明,基于枸杞不同侧面数据训练的模型具有鲁棒性,且模型性能未受到显著影响。通过NMR分析,研究识别并定量分析了62种成分,并通过多变量统计分析确定了各地理来源的GI标记。通过皮尔逊相关系数评估GI标记与HSI特征波长的相关性,增强了HSI数据的可解释性,从而获得了更准确且有意义的科学洞察。相比SHAP模型,本研究的方法进一步将运行时间缩短了33.99%。这些研究结果对于开发便携式多光谱设备具有重要意义,可提供一种快速、准确且经济高效的解决方案,用于枸杞产地的识别,从而促进植物产业中的质量控制和溯源管理。
推荐产品
作者简介
通讯作者:冯江华,厦门大学电子科学与技术学院,博导
参考文献
论文引用自一区文章:Chengcheng He , Xin Shi , Haifeng Lin , Quanquan Li , Feng Xia, Guiping Shen,Jianghua Feng , The combination of HSI and NMR techniques with deep learning for identification of geographical origin and GI markers of Lycium barbarum L. (2024) Food Chemistry 461.140903