背景:
阳山地区的桃子是中国地理标志保护产品,以其质地鲜嫩,风味诱人,营养丰富而闻名,特别是“白凤”和“湖景”品种。桃子的掺假行为,会给消费者、生产商以及公众对于品牌的真实性失去信心。然而,目前还没有有效的方法来鉴定阳山地区的桃子。
光谱成像、高分辨率质谱、核磁共振、近红外光谱和Raman光谱是识别茶叶、蜂蜜、水稻、可可豆地理来源的重要工具。高光谱成像结合成像和光谱信息检测目标物外部或内部属性,是一种可靠的地理来源预测方法。将高光谱成像和机器学习相结合,可以对化学成分进行分类。因此,高光谱成像技术可用于评估由特殊生长条件(如温度、日照时间、降雨和土壤质量)引起的桃子化学成分差异。尽管高光谱成像技术在其他农产品地理来源分类方面取得了一定进展,但其在桃子上的应用仍面临许多挑战。
本研究的目的是探讨高光谱成像在桃子地理来源分类和生理代谢分析方面的潜力,以确定鉴定阳山地区桃子地理来源所需的关键因素。本研究测定了不同产地桃子可溶性糖和有机酸代谢的差异;利用阳山桃高光谱反射率建立地理产地鉴别分类模型;对不同地理来源桃的不同生理代谢相互转化导致的高光谱反射率差异进行了解释;验证了组稀疏编码分类器对阳山桃产地认证的有效性。
试验设计
南京农业大学汪小旵教授团队利用GaiaSorter可见-近红外高光谱成像系统(江苏双利合谱公司)获取“白凤”和“湖景”两种桃子(产自阳山和南京)的高光谱影像。其波长范围为380 - 1038 nm,波段数为520。为了从基础上了解不同产地同一品种桃的生理变化,采集图像后对碳水化合物、有机酸和矿物质含量进行了分析。具体流程如图1所示。
组稀疏表示(Group sparse representation, GSR)已证明具有较为出色的模式识别能力,研究中使用GSR分类器对桃子的地理来源进行分类。将计算得到的ROI均值光谱作为样本。对于GSR分类器来说,一个判别性的组结构字典是必不可少的,通过如下步骤构建:对于每个类,随机选择一定的样本进行训练,并逐列排列形成子字典。其次,将不同产区同一品种对应的子词典级联,构建具有鉴别性的组结构字典。当给定未知来源的测试样本时,我们将其分解为鉴别组结构字典与继承字典可鉴别性的GSR系数向量的乘积。系数由几个相邻的子集组成,每个子集中的系数都为零或非零。最后,通过评估哪一类重构误差*小来实现地理来源认证。具体流程图如图2所示。
研究中使用GSR的主要原因如下:(1)GSR分类器在解决模式识别问题时优于许多**的分类器,而桃子产地的认证主要是一个模式识别问题。(2)组稀疏约束降低了稀疏表示系数的自由度,提高了稀疏编码的速度,有利于实际生产中的实时处理。(3)由于字典具有连续结构,因此可以使用较少实测样本来恢复GSR向量α,从而推断较少波段的光谱足以获得良好的性能。
图1 地理来源分类分析流程
图2 基于组稀疏编码的地理产地认证方法
结论
从表1可以看出,来自阳山区域的桃总糖含量*高,来自南京地区的“白凤”桃的总糖含量*低。不同产区同一品种桃的果糖、葡萄糖、蔗糖和总糖含量存在差异。同一产地不同品种桃的蔗糖和总糖含量相近。较高的昼夜温差有利于糖的积累,3 - 6月桃子生长期间,阳山区的昼夜温差高于南京。苹 果酸、莽草酸和奎宁酸的含量在不同产地间存在差异,而柠檬酸的含量在不同产地间无显著差异。糖酸比是指水果样品中总糖与总有机酸含量的比值,它在很大程度上决定了水果的口感和风味,糖酸比高的桃子比糖酸比低的桃子更甜。显然,阳山地区桃子的糖酸比要高于南京地区。花青素与果肉颜色有关。阳山地区桃的花青素含量低于南京树,这也解释了为什么“白凤”的果肉比“湖景”的果肉更白。
通过对糖、酸、酚类物质的分析,发现不同产地桃子的化学成分差异很大,因此可用近红外高光谱技术捕获足够的差异信息来建立判别模型。
表1 两种桃子碳水化合物、有机酸和花青素的比较
图3四个类别桃子的可见-近红外平均光谱。在400 - 1000 nm光谱范围内观察到果实的普遍反射规律,450 - 550 nm附近的部分吸收来源于花青素。在1900 - 2500 nm范围内,反射率在0.1以下,说明该范围内的图像信号噪声较低,光谱反射信息不准确。来自南京和阳山的“白凤”在400 - 600 nm的反射率与来自南京和阳山的“湖景”有显著差异。这种差异在1000 - 1900 nm范围刚好相反。一种可能的解释是400 - 600 nm的波长是可见光,这主要与桃子色素含量有关,包括叶绿素和花青素。A类花青素含量是C类花青素含量的4倍,高于B类与D类花青素含量之比。近红外光谱往往相对准确地对应于化合物变化。在该范围内,B类的光谱反射率*高,D类的光谱反射率*低,反射率由强到弱的排列顺序与糖酸比相同。可溶性糖含量也显示了类似的结果。这表明与色素和化学成分相关的波长对地理来源识别的重要性。
图3 四个类别桃子的平均光谱。(A:“白凤”来自阳山,B:“湖景”来自阳山,C:“白凤”来自南京,D:“湖景”来自南京)。
使用留一交叉验证计算六种算法的平均分类精度(表2)。在所有分类器中,GSR分类器在所有情况下的总体分类精度*高。在所有波长范围内,“湖景”的分类精度都高于“白凤”。“湖景”在1000 - 1900 nm波段的分类精度大多优于400 - 1000 nm波段的分类精度,这可能是由于1000 - 1900 nm波段的光谱反射信息中含有与可溶性糖含量相关的判别因素。
图4(A)可以看出,A类的少数训练样本具有较大的系数,而C类的训练样本具有很少的非零系数。从图4(B)可以看出,A类重构残差最小(1.12),而C类重构残差很大(134.98)。根据GSR分类器的决策规则,判断测试样本为A类,与地面真实值一致。
表2 六种分类方法的分类精度
图4 A类测试样本的组稀疏表示分类器系数(A)以及相对于A类和C类的重构残差(B)
GSR分类器的成功依赖于每个类有足够的训练样本,这些样本跨越了一个子空间,使得这个类的任何样本都位于这个子空间上。如果假设不成立,GSR分类器很可能会失败。因此,有必要评估训练样本数量对分类结果的影响。如图5所示,更大的注册规模导致更高的分类精度;注册规模大于或等于10足以确保GSR分类器达到95%以上的准确率。当注册规模为5时,分类准确率仅为82%,这意味着假设不成立。
综上所述,本研究发现阳山地区的桃子总糖含量和糖酸比较高,可能与昼夜温差较大有关。400 - 1000 nm是判别阳山地区果实的有效波段,与花青素和其他色素含量有关,而近红外波段(1000 - 1900 nm)蔗糖和酸类是判别不同桃品种的重要波段。本研究将提出的GSR分类器与其他五种分类器进行了比较,结果表明,GSR分类器实现了99.3%的总体分类精度。将高光谱成像技术与生理代谢分析相结合,有助于阳山地区桃子的产地鉴定。
图5 GSR分类器的分类精度与每个类别样本数量之间的关系
作者信息
汪小旵,博士,南京农业大学工学院教授,博士生导师。
主要研究方向:作物信息智能化检测、农业装备智能化控制。
参考文献:
Sun, Y., Li, Y.H., Pan, L.Q., Abbas, A., Jiang, Y.P., & Wang, X.C. (2021). Authentication of the geographic origin of Yangshan region peaches based on hyperspectral imaging. Postharvest Biology and Technology, 171, 111320.
https://doi.org/10.1016/j.postharvbio.2020.111320
地址:无锡市梁溪区南湖大道飞宏路58-1-108
电话:13810664973
邮箱:info@dualix.com.cn
地址:北京市海淀区中关村大街19号
电话:13810664973
邮箱:info@dualix.com.cn
地址:陕西省西安市高新区科技一路40号盛方科技园B座三层东区
电话:13810664973
邮箱:info@dualix.com.cn
地址:成都市青羊区顺城大街206号四川国际大厦七楼G座
电话:13810664973
邮箱:info@dualix.com.cn