高光谱技术结合小波变换如何快速锁定霉变花生仁
应用方向:
本研究结合高光谱成像技术和连续小波变换(CWT),聚焦于霉变花生的精准识别,通过提取光谱敏感特征区分健康与霉变样本。这一方法展示了高光谱技术在食品质量与安全检测中的重要应用价值,尤其在霉变与真菌感染监测、农产品自动分选和在线监控等方面具有广泛潜力。相比传统检测方法,高光谱技术实现了非接触、快速、绿色环保的检测方式,为食品安全监管及智能农业提供了高效解决方案。
背景:
花生作为全球广泛种植和消费的重要油料作物,具有很高的营养价值。然而,由于其特殊的组成成分,花生极易受到真菌(如黄曲霉)的感染,进而产生强致癌性的黄曲霉毒素(AFB1)。这种毒素不仅对人类和牲畜健康构成严重威胁,还可能导致农民、加工商及分销商的经济损失。
现有的黄曲霉毒素检测方法(如薄层色谱、高效液相色谱等)尽管准确,但存在耗时、操作复杂、依赖专业人员等局限性,不适用于自动化检测场景。而近红外光谱及高光谱成像技术因其非接触性及高效性,逐渐成为食品质量评估领域的重要工具。然而,高光谱成像数据的高维特性给实时检测系统带来了计算负担,特征降维成为后续数据处理的必要步骤。
连续小波变换(CWT)作为一种有效的特征提取方法,可在不同波长和尺度上分解光谱数据,从而识别出细微的光谱特征。尽管CWT在某些领域已显示出其优越性,但其在谷物和油料作物真菌感染检测中的应用仍较少。本研究旨在结合CWT和高光谱成像技术,开发一种高效、可靠的霉变花生识别方法。具体的研究目标为:(1)探索霉变花生的光谱特性;(2)确定适用于霉变花生检测的最佳CWT特征;(3)比较CWT提取的小波特征与传统波段选择方法的分类性能。
实验设计
1.1材料与方法
(1)花生样品制备
从市场上购买了三种花生品种:花育(HY)、四粒红(SLH)和小白沙(XBS)。手工挑选出完好无损的健康花生,并将其分成两部分:一部分妥善保存作为健康样本,另一部分用于获取霉变花生样本。为了获得霉变花生样本,将花生放入容器中,并置于37°C的恒温箱中,相对湿度设定在85~90%,持续10天以促进曲霉菌属的快速繁殖。从第11天起,温度调整至30°C,相对湿度保持不变。分别在第20天和第30天取出花生作为不同霉变阶段的霉变样本。然后,对于HY品种的花生,随机选取8个健康、霉变20天和霉变30天的样本,并使用黄曲霉毒素B1(AFB1)快速检测试纸进行评估。对于另外两种花生品种,每种随机选取10个健康、霉变20天和霉变30天的样本,并使用AFB1快速检测试纸进行评估。AFB1快速检测试纸最低检测限为5 ppb。该产品采用竞争性抑制金免疫层析法原理。当样本溶液中的 AFB1 浓度超过检测限时,检测线不会显现颜色反应,结果判定为阳性;当样本溶液中的 AFB1 浓度低于检测限时,检测线呈现紫色反应,结果判定为阴性。在实验过程中,健康花生样本经 AFB1 快速检测试纸检测,其 AFB1 含量均低于 5 ppb,据此假设所有健康花生样本均为健康。相反,霉变花生样本经检测发现 AFB1 含量均超过 5 ppb,因此假设所有霉变花生均为霉变。为排除水分含量对实验结果的干扰,健康与霉变的花生仁分别在 60°C 的干燥箱中干燥 24 小时。
对于每种花生品种,我们获取了七张高光谱图像(三张用于训练,四张用于测试)。图1展示了用于获取这七张高光谱图像的花生样本(HY)的照片。前三张图像显示了用作训练数据的花生样本,第一张展示了健康的花生样本,第二张展示了第20天获得的霉变花生样本,最后一张展示了第30天获得的霉变花生样本。后四张图像展示了用作测试数据的花生样本;其中前两张是健康花生和第20天获得的霉变花生的混合物,另外两张是健康花生和第30天获得的霉变花生的混合物。最终,共成像了547个花生样本(HY:154个,XBS:175个,SLH:218个),包括252个健康花生样本和295个霉变花生样本。在这些样本中,232个花生样本,包括79个健康样本和153个霉变样本,被用作训练数据;315个花生样本,包括173个健康样本和142个霉变样本,被用作测试数据。
图1.用于获取七张高光谱图像的花生样本(HY)照片:顶部三张图像用于训练数据集,底部四张图像用于测试数据集
(2)高光谱成像系统与图像采集
高光谱图像采集使用的是GaiaSorter(江苏双利合谱科技有限公司)设备。它由四个部分组成:一个光谱成像系统、一个照明系统、一个传送台和一个计算机。光谱成像系统由一个高光谱相机(Image-λ-N25E-HS)组成,其光谱范围为920至2530纳米,该相机连接到一个标准的C口变焦镜头(F/2, f = 22.5 mm, HSIA-OLES22)。照明系统由四个200瓦的溴钨灯(HSIALS-T-200W)组成。传送台由一个样品台和集成的电动精密传送台(HSIAT500)构成。计算机安装了SpecVIEW系统控制软件。
花生样本被放置在一个10厘米×10厘米的黑色托盘中以获取高光谱图像,如图1所示。所获得的图像共有288个波段,光谱分辨率为5.6纳米。此外,为了校正所采集的高光谱图像,我们收集了一张白参考图像,并通过完全关闭相机光圈记录了一张黑参考图像。
(3)高光谱图像预处理与光谱提取
图像采集完成后,将所得到的高光谱图像使用黑参考图像和白参考图像进行校正。另外,在捕获高光谱图像时,随机噪声是不可避免的,因此在进行进一步数据处理之前需要对数据进行了滤波。在本研究中,采用了五点平滑滤波器来处理高光谱数据。
非花生像素不仅在后续数据处理中无用,甚至可能对分析结果产生干扰,因此被标记为背景并赋予零值。为了提取紧密相连且无法通过简单阈值分割的花生区域,采用了标记控制的水洗算法生成掩模图像。随后,利用该掩模图像有效去除背景信息。在此基础上,进一步进行了预处理操作,包括图像裁剪以及低信噪比波段的移除。最终,筛选出波长范围为1000-2486nm的 265个波段用于分析
在图像空间分割上,采用了区域生长算法,其本质是将具有相似属性的像素组合在一起。对于每个区域,指定一个种子点作为生长的起点;然后,比较周围的像素点以确定它们是否包含在区域内。在本研究中,应用了四邻域区域生长算法到掩模图像上,以连接同一核区域内的像素,并为它们分配一个序列号。然后,每个花生仁都可以通过序列号轻松追踪,这有利于实现花生分选的工业自动化。
对于健康的花生样本,我们从每种花生的训练图像中随机选取了100个像素。对于发霉的花生,首先从训练图像中手动选择发霉的像素作为感兴趣区域(ROI);然后,从每种花生的ROI中随机选取50个像素。因此,共计获得了600个花生像素样本,其中包括300个健康花生像素和300个不同程度真菌感染的发霉花生像素。所选取的花生像素样本如图2所示。
图2.选定花生像素样本的分布情况
(4)方法
特征波长提取:
连续小波变换(CWT)是一种强大的方法,用于在不同尺度和分辨率下检测和分析高光谱数据中的微弱信号。本质上,CWT是一种线性操作,通过使用母小波函数在不同的波长和尺度上,可以将高光谱反射光谱转换为一系列系数。在本研究中,由于吸收特征的形状类似于准高斯函数,因此选择了墨西哥帽作为母小波基。为了减轻计算负担,仅保留了二进制尺度(21, 22, 23, …, 和 27)上的小波功率;因为总波段数为267,所以大于27 = 128的尺度上的分解分量不再携带有意义的光谱信息。
杰弗里斯-马图西塔(J-M)距离是一种灵活直观的特征可分性指数,用于衡量两个不同类别之间的特征,并广泛用于指导特征选择。杰弗里斯-马图西塔距离(J-M距离)的范围是0到2,它提供了两个类别之间可分性的一般度量。J-M距离越大,意味着两个类别之间分离的概率越高,反之亦然。在本研究中,J-M距离被用来评估不同尺度和波长下的小波系数,以进行小波特征(WF)的选择。
为了识别发霉花生仁,需要一种特征选择方法来识别最重要的特征,因为许多WFs由于连续分解是冗余的,因此要选择有意义的小波特征。首先,使用Mexican Hat作为母小波,通过CWT对每个花生仁的原始高光谱反射数据进行分解,分解尺度为21、22、23,……,27。这样,原始光谱就被转换成了在不同波长和尺度上的一组小波系数。其次,通过计算健康和发霉花生样本之间的J-M距离,构建了J-M距离尺度图。最后,根据J-M距离降序排列特征,并应用一个阈值J-M距离来划分前1%的特征。由阈值划分的特征在J-M距离尺度图上形成了一个分散的特征区域。理论上,所有在特征区域内的特征都是被选择的小波特征。然而,它们携带了冗余的光谱信息,因为同一区域内的特征是在连续的波长位置和尺度上产生的。因此,对于每个特征区域,使用具有最大J-M距离的特征来代表该特征区域捕获的光谱信息。
SPA是一种前向变量选择算法,通常用于减少模型中的变量数量,提高建模的速度和效率。它从单一波长开始,然后在每次迭代中加入一个新的波长,直到达到指定的波长数量。新选择的变量是在之前选择的变量正交子空间上具有最大投影值的变量。因此,SPA提取的有用变量子集具有最小的共线性。最优的变量数量通过均方根误差(RMSE)来确定。在我们的研究中,SPA被用来选择最优的波段以与WFs进行比较。
分类模型:
我们将健康花生标记为1,发霉花生标记为2。为了评估WFs以及SPA选择的最优波段的性能,我们使用了两种分类模型:偏最小二乘判别分析(PLS-DA)和支持向量机(SVM)。通过计算健康花生和发霉花生的整体分类准确率来评估WFs的性能。在PLSR中,由于预测响应很少直接产生等于1和2的二元结果,而是接近1或2的结果,因此使用了1.5作为分类的阈值。此外,PLS-DA模型中理想的潜在变量数量是通过五折交叉验证下RMSE的值来确定的。在SVM中,径向基函数(RBF)核被用作SVM分类框架的核。在评估方法中,通过计算灵敏度、特异性和总体准确性(OA)来评估分类模型的性能。
为了更清晰地说明图像处理步骤,图3展示了一个流程图。虚线框中的部分专门针对训练数据,用于确定最佳波段和特征权重。验证图像则跳过此部分,直接使用与训练图像相同的最佳波段和特征权重。
图3.图像处理流程图
1.2.结果与讨论
(1)花生的光谱反射率
图4展示了健康和霉变花生的反射光谱,这些光谱是通过计算不同类别样本光谱的平均值得出的。在健康花生的反射光谱中可以看到六个显著的吸收峰,分别位于大约1208纳米、1472纳米、1747纳米、1938纳米、2145纳米和2329纳米(用黑点标记),主要可以归因于与花生中的水分、蛋白质和油脂成分相关的CH、NH和OH的吸收。在1000-1500纳米的波长范围内,健康和霉变花生的光谱曲线形状明显不同。当花生发生霉变时,1118纳米处的反射率降低,导致吸收峰减弱。在1365-2486纳米的波长区域,霉变花生的反射值高于健康花生,这可能归因于真菌污染引起的散射和吸收特性。真菌的侵入可以使花生仁胚乳变得多孔,这可能导致霉变花生比健康花生散射更多的光线,这种散射会导致在反射模式下吸收更少的近红外辐射。
图4.健康与霉变花生的光谱响应:黑点表示健康花生的吸收峰,垂直虚线表示由SPA选择的最佳波长变量。
(2)用于识别霉变花生的波长特征(WFs)
在不同波长和尺度下,计算了每个样本光谱的小波系数,图 5 展示了健康与霉变花生样本的平均光谱结果。随后,通过计算不同类别小波系数之间的 J-M 距离,生成了一张指示WFs光谱敏感性和区分能力的尺度图(图 6)。在本研究中,顶部 1% 元素的阈值 J-M 值为 1.70,基于该阈值筛选出五个对霉变花生高度敏感的小波特征区域(图 6 中的橙色区域)。如图 6 所示,这些敏感特征区域主要集中在 1000–1500 纳米的波长范围内。该波长区域的光谱曲线形状在健康与霉变花生之间表现出显著差异(图 4)。在每个特征区域中,选取 J-M 距离最大的点,最终选择了五个用于区分霉变与健康花生的小波特征。它们的具体波长和尺度见表 1 。
1005纳米、1045纳米和1410纳米的波段分别与花生中的纤维素、油脂和水分有关,这些是花生的主要组成部分。在其他波段中,1422纳米和1518纳米与1430纳米和1510纳米相似,与总真菌感染有关。1430纳米波段可以归因于蔗糖/淀粉的O−H伸缩第一泛音,而1510纳米对应于O−H变形羟基和C−O伸缩的第三泛音,这可以归因于角质层和β-葡聚糖。
图5.不同尺度下健康与霉变花生平均光谱的小波系数
图6.用于提取WFs的连续小波分析的J-M距离尺度图
(3)通过SPA进行最佳波段选择
每个类别的样本按照2:1的比例被随机分为校准和验证数据,并根据RMSE选择最佳波段的数量。校准和验证数据的随机分割导致了在不同实现中选择的波长有所变化;因此,为了选择最佳波段,样本分割和SPA程序被重复执行。在进行了五次样本分割和SPA程序后,比较了产生的五组波长,并选择了至少有3组共同认同的波长。最终,确定了七个波长(1005纳米、1208纳米、1450纳米、1927纳米、2078纳米、2190纳米和2251纳米)作为识别霉变花生的最佳波段,如图4所示。我们可以看到,在最佳波段和WFs之间只有一个共同的波段(1005纳米)。这主要是由于两种方法的选择标准不同,CWT主要捕捉光谱形状的差异,而SPA主要选择具有最小共线性的波段。在其他波段中,1208纳米对应于淀粉分子吸收相关的C−H第一泛音和第二泛音以及C−H组合;1450纳米波段可以归因于花生中的蛋白质含量;1927纳米波段,与1930纳米相似,可能归因于淀粉的O−H伸缩/HOH变形组合;2078纳米波段,与2090纳米相似,与总真菌感染有关。其他波段,2190纳米和2251纳米,更接近2200纳米和2270纳米,可能分别归因于−CHO的C–H伸缩/C=O伸缩组合和纤维素的O−H伸缩/C−O伸缩组合。
(4)WFs性能评估
使用五个WFs和七个最佳波段作为输入变量,结合PLS-DA和SVM建立了分类模型。对于WFs和最佳波段,PLS-DA的理想LVs数量分别为3和6。对于SVM参数(C,σ),采用了基于网格的方法和五折交叉验证进行优化,WFs和最佳波段的最优SVM模型对应的(C,σ)分别为(1,0.5)和(100,0.5)。然后,对花生仁中的每个像素进行了分类,使用SVM对HY(健康与霉变)的分类结果可见于图7。
图7.使用SVM对训练数据集进行逐像素分类的结果,其中(a)使用最佳波段,(b)使用WFs;对测试数据集进行逐像素分类的结果,其中(c)使用最佳波段,(d)使用WFs
在逐像素分类后,使用受真菌污染的像素数量与总花生像素数量的比率来确定花生仁是否受到污染。比率低于0.05、0.1和0.15的阈值分别被认为是健康花生。图8显示了β=0.15和SVM时HY的核尺度分类结果,定量结果如表2所示。从图8中我们可以看到,对于训练数据,无论使用WFs还是最佳波段,两种分类器和阈值都能正确识别健康和霉变花生。相比之下,对于测试数据,如表2所示,WFs在使用两种分类器的三个阈值上的整体准确度上都优于最佳波段。此外,使用WFs的灵敏度和特异性高于或等于使用最佳波段,表明WFs在健康和霉变花生分类中的性能更佳。CWT能够在不同尺度上分离吸收特征,将狭窄和宽的吸收特征分别分离到低尺度和高尺度。这种特性的好处是可以实现对WFs的全面调查,从而能够选择最佳的光谱特征。
图8.使用SVM对训练数据集进行核尺度分类的结果,其中(a)使用最佳波段,(b)使用WFs;对测试数据集进行核尺度分类的结果,其中(c)使用最佳波段,(d)使用WFs。白色圆圈表示被误分类的花生仁
在此,我们使用了一个阈值来确定花生仁是否霉变。理论上,较小的阈值更好,因为它可以避免将霉变的花生误判为健康的花生。相反,较小的阈值可能会增加将健康花生仁误判为霉变的风险,这可能会导致因错误丢弃而造成的经济损失。因此,确定阈值至关重要。考虑到使用0.05、0.1和0.15的不同分类器的整体分类结果,本文推荐使用0.1作为折中的阈值。但是,未来应该探索一种可靠的阈值确定方法。此外,尽管本研究表明,通过结合CWT和高光谱成像技术,有可能以相对较高的准确度识别霉变花生,但本研究得到的特征和模型可能仍不适合实际应用于多样化的花生。不过,本研究中描述的特征提取和建模方法可以作为开发核心算法的参考。
结论
健康和霉变的花生在对短波红外光的光谱响应上表现出显著差异。在本研究中, CWT被应用于高光谱分类框架中,以提取特征来识别霉变花生。确定了五个WFs用于将花生分类为健康或霉变。本文展示的结果表明,WFs结合PLS-DA或SVM有希望识别出花生仁上的霉变——测试数据的准确度至少为96.19%。这比使用由SPA获得的最佳波段进行分类的性能更好。未来的研究应包括更多样化和不同种类的花生样本,建立霉变严重程度评估方法,对不同霉菌的霉变花生进行分类,并建立更可靠的阈值确定方法。这些改进可以增强所选WFs的鲁棒性。
推荐产品
作者简介(人名+单位+博导/硕导)
通讯作者:蒋金豹,中国矿业大学,博士生导师
参考文献
论文引用自二区文章:Xiaotong Qi, Jinbao Jiang, Ximin Cui, Deshuai Yuan (2019). Moldy Peanut Kernel Identification Using Wavelet Spectral Features Extracted from Hyperspectral Images. Food Analytical Methods. https://doi.org/10.1007/s12161-019-01670-w