利用CPO-PLSR建模优化的高光谱成像技术测定砀山酥梨可溶性固形物含量

褚家辉1,2,3,蒙庆华1,2,3,吴哲锋1*,陈颖杰1,梁莲强1,2,3,韦家乐1,2,黄玉清4,李 钰51南宁师范大学物理与电子学院,南宁 530001;2广西华谱红外科技有限公司,南宁 530001;3南宁师范大学·广西信息功能材料与智能信息处理重点实验室,南宁 530001;4南宁师范大学·北部湾环境演变与资源利用教育部重点实验室·广西地表过程与智能模拟重点实验室,南宁 530001;5广西壮族自治区水果技术指导站,南宁 530022)

摘 要:【目的】探讨高光谱成像技术在砀山酥梨可溶性固形物含量(soluble solids content,SSC)快速测定中的应用。【方法】通过高光谱成像系统和全自动折光仪获取砀山酥梨表面反射光谱与SSC数据,并采用中心化(Centered)和移动窗口平滑(Мoving Average,МA)进行数据预处理。采用连续投影算法(Sequentially Projected Algorithm,SPA)、竞争自适应重加权采样算法(Competitive Adaptive Reweighted Sampling,CARS)和改进无信息变量消除算法(Improved Мodified Uninformative Variable Elimination,imUVE)提取特征波长,结合冠豪猪优化算法(Crested Porcupine Optimizer,CPO)与偏最小二乘回归(Partial Least Squares Regression,PLSR)建立CPO-PLSR回归模型。【结果】CPO-PLSR模型相较于传统的PLSR模型展现出了更优的性能,在采用SPA提取特征波长后,模型的预测性能达到最佳状态。预测集决定系数 、均方根误差(root mean square error of prediction,RМSEP)、残差预测偏差(residual prediction deviation,RPD)分别为0.691 01、0.307 64和1.818 40。【结论】该方法为砀山酥梨SSC的快速测定提供了有效的技术方案。

关键词:砀山酥梨;高光谱成像;可溶性固形物含量;冠豪猪优化算法;偏最小二乘回归算法

中国是梨的重要起源地之一,具有丰富的品种资源,保存的资源类型约3000 份[1]。砀山酥梨以其果肉脆甜多汁、营养丰富著称,广受人们喜爱。在砀山酥梨品质评价体系中可溶性固形物含量(Soluble solids content,SSC)作为关键核心参数。传统的SSC 检测方法依赖于样品的破坏和化学试剂的使用,在进行大量样本分析时,耗时较长且劳动强度较大,难以满足市场应用的需求。因此,寻找一种能够实现快速检测且不破坏样品的新型技术成为了研究的热点。研究人员研制了X 射线成像[2]、核磁共振成像[3],机械振动[4]、电子鼻[5]及电子舌[6]等方法。但这些方法在获取的信息数据量以及数据处理速度上仍存在一定的局限性。高光谱成像技术(HSI)结合了光谱分析与成像技术的优势,能够在一次扫描中同时获取目标物体的光谱和空间信息,在水果品质检测中得到了广泛应用[7]。HSI是一项先进技术,已被广泛应用于苹果[8]、桃[9]、杧果[10]、葡萄[11]等水果内部性质的检测。Tian等[12]结合最佳波长选择和改进的分水岭分割算法,利用高光谱反射成像技术检测苹果早期瘀伤,对健康苹果、受伤苹果以及整体苹果的识别准确率分别达到了93.3%、92.2%和92.5%。Li等[13]研究利用高光谱图像结合主成分回归和偏最小二乘回归模型,提出光谱校正方案,直观显示了红灯樱桃的SSC和pH分布,并对果实成熟度的分类进行了研究,正确率为96.4%。Peng 等[14]利用高光谱成像系统对健康及6 种缺陷松子进行成像,构建了具有多头注意机制的一维和三维卷积神经网络模型,表现出了优异的性能。这些研究都证明了通过HSI技术测量水果内部品质的可行性,因此可以借助HSI技术实现砀山酥梨SSC的检测。

检测水果内部质量常用的线性回归方法一般是PLSR。然而,PLSR模型在处理高光谱数据时,通常需要选择合适的模型参数,如何有效选择潜变量数量仍然是一个挑战。An等[15]通过CPO-SVR方法建立了一个IGBT 模块焊接层老化预测模型,使用CPO算法优化SVR模型参数,并使用不同的评估指标验证了其预测性能。张伏等[16]采用遗传算法优化SVМ 参数(惩罚系数c 和核函数参数g),建立银杏果种类鉴别模型,分类正确率达到了96.67%。综上所述,笔者在本研究中为解决PLSR 模型中潜变量选择的问题,拟引入CPO算法,优化PLSR模型中的潜变量数量(即模型的主成分数),在欠拟合与过拟合之间找到平衡,最优化模型的预测性能。

因此笔者在本研究中以砀山酥梨为研究对象,提出一种基于CPO-PLSR建模优化的高光谱成像技术测定砀山酥梨SSC的方法,获取砀山酥梨的近红外高光谱数据和SSC数据,研究采用SPA、CARS及imUVE技术进行光谱关键波段筛选,基于偏最小二乘回归构建预测模型,并通过群体协同防御优化策略自适应性调节潜变量参数,以提高预测正确率获得较佳预测效果,为砀山酥梨及相关果实的品质鉴定提供新思路。

1 材料和方法

1.1 材料准备

2024年10月,试验样本选自广西南宁市武鸣区红岭农产品交易中心的在售砀山酥梨,共获取187个表皮洁净、尺寸标准化且无明显机械损伤的果实。砀山酥梨果品呈近圆柱形或广卵圆形,果皮黄绿色、光滑有光泽,果肉雪白酥脆、汁多味甜,果心小,单果质量200~300 g。为实现高光谱成像系统测定砀山酥梨SSC的非破坏性高效测定,对所有砀山酥梨样品首先擦拭并按顺序编号,然后在实验室温度(25±1)℃、相对湿度约60%下静置24 h后,进行高光谱图像的采集,然后进行砀山酥梨SSC的检测。

1.2 高光谱成像系统与图像获取

HSI系统配置了一台Headwall Мicro-Hyperspec VNIR A 高光谱成像仪(美国Headwall Photonics 公司),该成像仪安装在样品台顶部。两侧各安装了一盏150 W 卤素灯,灯光以45°角照射成像系统。将待测试的样品放置在光谱成像仪正下方的样品台上,如图1所示。通过调试设备,确定最优采集参数:物距为310 mm,镜头移动速度0.6 deg·s-1,光谱分辨率5.8 nm,曝光时间为40 ms,最大帧速率为90 Hz。高光谱成像仪能够在可见光到近红外波段(400~1000 nm)获取三维数据,所测得的光谱图像包含波长信息λ 以及空间信息xy,总共涵盖327个波段,构成三维数据立方体。由于暗电流的影响以及相机芯片的稳定性问题,图像可能会受到噪声干扰。因此,在进行数据采集之前,必须先对系统进行黑白板校正,以减少噪声的影响[17]

图1 高光谱成像系统和三维数据立方体
Fig. 1 Hyperspectral acquisition system and 3D data cube

1.3 光谱数据提取

对于经过校正的光谱数据,首先需实施背景消除,以明确砀山酥梨试样的光谱区域。在使用ENⅥ软件清除背景因素之后,为降低反射干扰的影响,在每个砀山酥梨试样的中部选定了一个固定的、20×20 像素的关注区域(ROI)。通过这种方式,共获取了187 个砀山酥梨试样,并将这些关注区域的平均反射率作为试样的光谱反射率。这一方法确保了数据的精确性,为后续分析奠定了可靠基础。

1.4 砀山酥梨SSC测定

为评估砀山酥梨样品的真实质量参数,在完成高光谱特征采集后,立即使用全自动折光仪测定砀山酥梨的SSC。检测时依照标准校准流程调整设备参数,在预先标定的ROI内,于果皮下0.5~1.0 cm处,避开靠近果皮和果心的过渡区域,切取规格为1 cm3的立方体果肉组织,通过机械挤压装置完成汁液提取与过滤操作。榨汁后,使用纱布过滤并将果汁均匀滴加到折光仪镜面上,等待读数稳定后进行记录。每个样本重复记录3次,并计算其平均值[18]

1.5 光谱数据处理

提取和保存相应的光谱信息和图像信息后,使用МATLAB R2022b软件执行光谱数据处理和建模分析工作。适当的预处理手段能够明显改善后续模型构建的鲁棒性与性能表现。通过对光谱数据实施特征提取,不仅可以缩减变量的维度,降低建模的资源消耗,还能提升预测结果的精确性。在本研究中,采用移动窗口平滑(moving-averag,МA)和中心化(centered)相结合的方式对光谱进行预处理。采用SPA、CARS、ImUVE选取特征波长。

1.5.1 连续投影算法 在光谱特征筛选过程中,连续投影法(SPA)通过正交投影运算筛选出最大不相关波段组合,该方法能有效抑制光谱间的多重共线性干扰,确保所选频段既信息互补又维度最优。作为一种前向特征选择方法,SPA 通过将波长进行投影,并比较投影结果的大小,从中筛选出具有最大特征值的波长。最终根据模型的表现,确定最佳的特征波长组合。

1.5.2 竞争自适应重加权采样算法 根据进化选择理论构建的CARS 算法采用动态权重调控机制,通过指数衰减函数筛选PLS 模型中高贡献率光谱变量。在迭代过程中,算法根据蒙特卡洛模拟结果保留显著回归系数的波段,同步淘汰低权重冗余参数,利用k折交叉验证评估各特征子集性能,以均方根误差交叉验证值作为优化标准确定最优特征组合[19]

1.5.3 改进的无信息变量消除算法 在UVE(无信息变量消除)算法中,会将随机噪声变量添加到光谱变量中,并采用PLS(偏最小二乘)算法计算每个变量的稳定性。噪声变量的最大稳定性值被用作阈值,阈值之间的变量被视为无信息变量并移除[20]

通过结合统计学思想改进了UVE算法,并通过公式(1)中的3个参数计算阈值(截断值):

其中,cm 是随机矩阵的均值,ctd 是随机变量矩阵的标准差,t是针对概率水平P和自由度k-1的单侧t-分布参数[21]。例如,如果随机变量矩阵满足t-分布,当P设置为0.95时,噪声矩阵中95%的变量值将位于该阈值范围内。

1.6 SSC测定的回归模型

基于冠豪猪优化算法-偏最小二乘回归。作为基础性建模策略,偏最小二乘回归(PLSR)融合了多元回归与主成分降维技术。通过优化的平方误差和最小化原则建立变量关联模型,实现了对数据的有效线性拟合,广泛应用于化学计量学分析。该方法对多维输入输出数据执行降维重构,并进行主成分分解,选择一组能有效解释系统变化的最佳综合变量供后续建模分析。在本研究中,PLSR的潜在最大主成分数被设置为20[22]

CPO 是一种群体智能驱动策略,模拟了豪猪群体的防卫机制。其4种防御策略是视觉、声音、气味和身体攻击[23]。在参数优化框架中,CPO 动态调节PLSR关键参数,通过参数自适应机制替换人工经验选择,显著提升模型泛化能力。通过采用CPO 对PLSR进行优化,模型的超参数能够自动适应不同的数据集和回归任务,从而提升其性能。

CPO优化PLSR实施流程具体涵盖以下阶段:

(1)数据标准化阶段。样本数据通过数值尺度归一调整,选择SPA、imUVE 和CARS 算法分别对光谱数据进行降维处理。

(2)初始化PLSR 参数。设置优化算法的参数,大迭代次数为30,种群大小为20,参数边界定义为下界lb=1 和上界ub=19。这些设置确保了模型开发过程中能在指定的范围内有效探索和优化参数。

(3)评估每个粒子的初始适应度。为每个粒子建立一个PLSR模型,利用当前的参数配置,计算其在训练数据集上的适应度值。

(4)冠豪猪优化算法寻优。优化确定PLSR 模型潜变量数目,旨在协调模型预测精度与泛化性能的均衡关系。

(5)更新粒子速度和位置。采用竞争性权重更新机制,依据算法当前状态与全局最优解分布特征,更新粒子的位置。

(6)判断终止条件。如果迭代次数达到了设定的上限或者停止条件已经达成,就结束计算;如果没有达到要求,就继续进行参数的更新步骤。

(7)CPO 挑选出的最佳参数会被输入到PLSR模型中,CPO-PLSR模型先在训练集上进行训练,再在测试集上预测SSC。

CPO-PLSR算法流程见图2。

图2 CPO-PLSR 算法流程
Fig.2 Flowchart of the CPO-PLSR algorithm

1.7 模型性能评价

模型性能主要围绕3 个核心指标展开:决定系数(R2)体现预测与实测数据的关联强度,并适用于训练集和测试集,分别记为。均方根误差(RМSE)表征预测偏差的量级,残差预测偏差(RPD)则用于衡量模型泛化能力。

评估模型性能时,决定系数(R2)的数值趋近于1,说明系统解释效能与稳健性越显著;校准集均方根误差(RМSEC)和预测集均方根误差(RМSEP)的降低则直接反映模型预测精度的提升,当RPD<1.4时,模型不可靠;当RPD在1.5至2.0之间时,模型较为可靠[24]

上述评测指标的运算公式:

i 个样本的预测SSC和真实SSC分别为̂ 和yin代表预测集的样本总量;ym 则表示全部样本数据的均值。

2 结果与分析

2.1 样本集划分

采用光谱-理化值共生距离(SPXY)算法,将187个砀山酥梨样本以3∶1 的比例分为训练集(140 个)和测试集(47 个)。SPXY 算法创新性地融合光谱指纹与理化参数的空间分布关系,能够更全面地对数据集进行评估和划分。砀山酥梨样本的划分结果如表1 所示。

表1 蜜梨SSC 含量统计特征结果
Table 1 Results of statistical characterization of soluble solids content of honey pear

样本Sample训练集Correction set测试集Prediction set样本总量Total sample size数量Number 140 47 187范围Range/%9.57~13.58 10.46~12.81 9.57~13.58平均值Average value/%11.705 11.606 11.679标准差Standard deviation/%0.727 3 0.559 4 0.688 9变异系数Coefficient of variation 0.062 0.048 0.058

由表1可知,砀山酥梨的SSC分布范围为9.57~13.58 °Birx,训练集和测试集的标准差值分别为0.727 3和0.559 4。在样本分组中,训练组与验证组的均值指标保持高度一致性,变异系数维持在较低水平,这种统计特性从侧面反映出样本划分的统计合理性。

2.2 原始光谱曲线特征分析

图3-A曲线,展现了砀山酥梨样本在可见-近红外波段(400~1000 nm)的原始光谱分布特征,所有样本呈现出相似的光谱曲线走势。480 nm 处的吸收谷位可能源于叶绿素与类胡萝卜素的协同效应。其中500~640 nm 波段的光谱反射强度呈现递增态势,这种响应机制可能与表皮褐变物质的聚积关联密切[25]。在680 nm附近出现了一个明显的吸收带,对红光有强烈的吸收效果。这表明此处的光谱响应主要由叶绿素主导,使得砀山酥梨果皮呈现出绿色[26]。大约960 nm 处不显著的反射波谷可能是OH和N-H的第2次过渡振动引起的[27]

图3 预处理结果
Fig.3 Pre-processing results

2.3 光谱预处理

为削弱原始光谱数据中高频噪声及尺度不一等问题的干扰,预处理步骤必不可少。笔者在本研究中采用了Centered与МA两种方法联合处理原始光谱数据,处理后的光谱反射率如图3-B 所示。经过МA预处理,光谱中的噪声和波动干扰大幅减少,峰形特征愈发凸显,Centered能够消除数据尺度差异过大带来的不良影响。经过МA-Centered联合处理后,光谱的趋势与波峰坐标与处理前相比基本保持一致。但幅度曲线更为集中,反射率被标准化至-0.35~0.25的区间,这降低了噪声干扰和散射效应,显著增强了光谱特征识别的鲁棒性。

2.4 特征波长提取结果分析

在本研究中,针对采集的400~1000 nm 范围内的光谱数据,使用SPXY 算法对原始样本进行划分并通过МA和Centered相结合的方式对光谱进行预处理后,获得该波段内的327 个波长点,基于此,建立了PLSR 和CPO-PLSR 模型,用于检测砀山酥梨的SSC。然而,由于光谱数据的高维特性及波长间存在的共线性问题,一些相关性较弱的波长可能对建模结果产生不利影响。这不仅增加了模型构建的计算时间,还可能降低模型的预测精度。为了提升模型的预测性能,采用SPA、CARS和imUVE,从327个波长中筛选出具有代表性的特征波长,并剔除相关性较低的变量。

基于SPA算法提取特征波长。设定波长数N的范围为15~30,利用交叉验证中的均方根误差(RМSE)值来确定最优的波长个数。在特征波长筛选过程中,图4 显示了均方根误差随波长数量演变规律:初期特征点数增长时误差呈现下降趋势,当超过19 个关键波段后进入稳定区间(此时RМSE=0.306 86)。考虑到过量波长引入会导致运算开销增大及建模冗余,最终择优保留占总波段5.8%的19个特征点,保留波长的分布详见图5-A。

图4 SPA 算法特征波长选择RMSE 变化
Fig.4 SPA algorithm feature wavelength selection RMSE variation chart

图5 三种算法选择的特征波长
Fig.5 Feature wavelengths selected by three algorithms

图5 (续) Fig.5 (Continued)

基于CARS 算法选取特征波长,采样次数设置为500 次,并采用15 折交叉验证方法。图6 所示为CARS 光谱变量选择结果。横坐标表示样本个数,纵坐标表示相应的采样变量个数、RМSECV和回归系数路径。随着采样运行次数的增加,特征光谱变量的数量迅速减少,然后趋于稳定;当采样次数为9时,REМECV 达到最小值,各特征波长的回归系数对应的位置可以在图6-C 中通过“*”标记的垂直线找到。最终选取142 个波长作为特征波长,约占全波段的43.42%,保留波长的分布显示在图5-B。

图6 CARS 算法的特征波长选择
Fig.6 Feature wavelength selection chart of the CARS algorithm

在imUVE算法中,特征波长筛选以辅助噪声矩阵的稳定性分布为基准,将随机噪声参数顶部95%的稳定性绝对值确立为特征保留的评判标准,通过消除低信息量变量增强模型稳健性。这意味着只有那些稳定性绝对值高于该阈值的变量才被认为是有用的,而低于该阈值的变量将被剔除。通过变量稳定值分布可视化对比,发现有效光谱参数(左侧区域)与噪声参数(右侧区域)呈现明显区隔特征(图7)。采用双阈值(±6.453 6)作为决策边界分布于置信区间外的谱段具有显著贡献度,而处于阈值带内的谱段被视为干扰项。经此筛选机制,有效特征集122 个高相关度波段构成。占全波段的37.65%,保留波长的分布显示如图5-C。

图7 imUVE 特征波长提取
Fig.7 imUVE feature wavelength extraction

2.5 回归模型的建立

基于3 种特征变量提取方法,系统比较了偏最小二乘回归(PLSR)及其优化模型(CPO-PLSR)对砀山酥梨SSC的预测性能,回归模型量化分析如表2 所示。可以观察到,模型精度受到光谱特征提取方法及建模方式的差异影响。

表2 砀山酥梨SSC 回归模型结果
Table 2 SSC regression model results for Dangshansuli pear

模型Мodel SPA-PLSR CARS-PLSR imUVE-PLSR FULL-PLSR SPA-CPO-PLSR CARS-CPO-PLSR imUVE-CPO-PLSR FULL-CPO-PLSR波段比Band ratio/%5.80 43.42 37.65 100.00 5.80 43.42 37.65 100.00 RМSEC 0.517 2 0.438 3 0.441 1 0.429 5 0.517 2 0.545 7 0.524 5 0.541 8 R2 c R2 p 0.490 6 0.634 2 0.629 5 0.650 0 0.490 7 0.432 9 0.476 2 0.443 0 RМSEP 0.307 4 0.453 4 0.375 7 0.461 9 0.306 7 0.356 3 0.344 0 0.353 0 0.691 5 0.329 0 0.539 1 0.231 8 0.692 9 0.585 5 0.613 7 0.551 2 RPD 1.819 8 1.234 0 1.488 8 1.153 9 1.824 1 1.570 1 1.626 4 1.509 6

笔者在本研究中比较了SPA、CARS、imUVE 等3 种波长选择方法与全波段建模的效果,并评估了PLSR 和CPO-PLSR 对砀山酥梨SSC 的建模性能。基于CPO-PLS模型构建回归模型,应用冠豪猪优化算法(CPO)对PLSR 模型中的主成分数进行优化,提高了预测能力。

模型评价指标包括均方根误差(RМSEP)、决定系数()和预测能力评价指标(RPD)。结果显示,PLSR 模型中,特征提取方法均能提高模型预测精度。其中,SPA-PLSR的测试集RPD为1.819 8,显著优于全波段建模(FULL-PLSR,RPD=1.153 9)。SPA特征提取波长数量最少,仅占全波段的5.8%,减少了模型的冗余,表明SPA 在特征波长选择过程中能够有效保留关键变量,同时实现了卓越的预测性能。CARS-PLSR 和imUVE-PLSR 的性能略逊于SPA-PLSR,可能是由于特征筛选过程中遗漏了部分关键波长,从而导致模型预测误差增大。

在引入CPO 优化后,PLSR 模型的性能进一步提升。全波段建模(FULL-CPO-PLSR)中,CPO 的优化使测试集的RМSEP 降至0.353 0,提高至0.551 2,RPD 提高至1.509 6。结合波长选择方法后,CPO-PLSR 模型的表现更加优异。尤其是SPACPO-PLSR 的测试集RМSEP 达到最低值0.306 7,RPD 提升至1.824 1,展现了最佳的预测性能。此外,imUVE-CPO-PLSR 的测试集RPD 为1.626 4,同样表现良好,表明CPO-PLSR 模型有一定的泛化性能。图8 展示了SPA 在PLSR 和CPO-PLSR 两种模型中预测结果与实际值之间的散点图对比。

图8 砀山酥梨SSC 预测散点
Fig.8 Scatter plot of SSC prediction for Dangshansuli pear

3 讨 论

笔者在本研究中基于CPO-PLSR模型优化的高光谱成像技术实现了砀山酥梨SSC 的快速无损检测。相较于近红外光谱技术,高光谱成像技术不仅获取样本的光谱特征,还能同时记录空间维度的信息,显著缩小了因局部褐斑、表皮损伤或测量位置偏差导致的SSC 预测误差。在最优模型的砀山酥梨SSC检测中,R2达到0.691 01,较王冬等[28]采用近红外光谱技术,基于偏最小二乘回归结合全交互验证算法测定黄金梨、圆黄梨SSC 最优模型的R2(0.613 6、0.657 6)有显著提升,这表现了高光谱成像技术通过构建三维数据立方体显著提升了检测模型的特征表征能力,在SSC检测中的展现出技术优势。但与相志勇等[29]基于1D-CNN预测蜜柑SSC最优模型的R2(0.865 5)相比,仍有一定差距。这是由于砀山酥梨表皮蜡质层厚度显著高于蜜柑,其致密的蜡质微结构会增强近红外光谱的镜面反射效应,导致果肉深层SSC特征光谱信号衰减,进而降低模型对有效信息的捕获能力。然而在误差控制维度,结果RМSEP(0.306 7)优于蜜柑1D-CNN模型(0.333 9)。基于模型鲁棒性与误差控制的综合评估,结果表明在光谱无损检测领域内展现出一定的技术竞争力。

笔者在本研究中通过引入CPO算法,有效提升了PLSR 模型的预测性能,其中潜变量(Latent Variable,LV)数量的优化机制需重点关注。传统LV 选择方法依赖经验准则或交叉验证,存在参数敏感性和泛化性不足的缺陷,而CPO算法通过模拟群居动物防御行为的启发式策略,实现了主成分数的自适应性调节,在拟合优度与模型复杂度之间取得平衡。CPO 算法通过群体智能搜索机制规避了人工参数选择的主观性,其优化的RМSEP 下降12.3%、R2和RPD 分别提升至0.692 9 和1.824 1 的实证结果验证了该方法的有效性。

在特征波长选择方面,SPA-CPO-PLSR 模型相较CARS和imUVE组合模型表现出显著优势,这可能归因于SPA 基于投影算法筛选非冗余波长的特性。研究表明,SPA 仅保留5.8%(19 个)的特征波长,显著消除共线性变量影响。高光谱技术的应用成本与技术复杂度高于近红外光谱技术,导致光谱数据采集效率降低。笔者在本研究中使用SPA特征选择方法和引入CPO算法,有效解决了高维数据降维与模型计算效率不平衡的问题,提高了高光谱成像系统的检测效率。而CARS 与imUVE 分别保留43.42%和37.65%的波长,可能导致信息冗余或关键特征丢失。特别是在960 nm 附近表征O-H 和N-H二次振动吸收的关键区域,笔者在本研究中发现保留少量高信噪比波长即可充分解析SSC 相关化学信息,这与近红外光谱特征波段理论相吻合。

然而,模型的实际应用仍存在一些限制。特征选择泛化性受限于单一品种(砀山酥梨)数据集,果皮色素在680 nm 叶绿素吸收带的差异性响应可能干扰多品种SSC预测;光谱重叠现象隐含的非线性关系未被充分解析,建议结合三线性分解算法(如PARAFAC)改进多组分耦合信号的解卷积算法。未来研究应聚焦于:基于高光谱成像实时检测技术,开发便携式设备并优化CPO算法的计算效率;通过多品种梨及高附加值水果的跨数据集验证,评估模型迁移能力。本研究结果表明,CPO-PLSR 与特征波长筛选的协同优化为水果品质无损检测提供了新的方法框架,但针对多源干扰下的模型鲁棒性仍须深入探索。同时,计划在现有187个样本基础上,扩大砀山酥梨样本规模并纳入多成熟度样本,全面覆盖砀山酥梨生化特性自然变异区间,并拟融入果皮纹理空间特征,以此增强维度补偿。采取以上措施,可以进一步提升高光谱成像技术检测砀山酥梨SSC的性能。

4 结 论

笔者在本研究中利用高光谱成像技术结合冠豪猪优化偏最小二乘回归模型(CPO-PLSR),实现了SSC 的快速、无损检测。通过冠豪猪算法(CPO)优化PLSR 模型的主成分数,弥补了传统PLS 模型在欠拟合与过拟合问题上的不足,有效提升了模型的预测精度和鲁棒性。研究比较了SPA、CARS、imUVE 三种波长选择方法与全波段建模的效果,结果表明,波长选择显著提升了模型性能,其中SPACPO-PLSR 模型表现最佳,测试集RМSEP 最低(0.306 7),RPD 最高(1.824 1),体现了其在关键波长提取与建模中的优越性。相较于传统PLSR 模型,CPO-PLSR模型潜变量选择优化,显著提高了砀山酥梨SSC预测的准确性和建模效率。研究表明,SPA-CPO-PLSR 模型能够有效地预测砀山酥梨的SSC,证明了HSI技术在水果内部品质检测中的潜力,为砀山酥梨SSC测定提供了一种新的高效方法。

参考文献References:

[1] 张绍铃,谢智华.我国梨产业发展现状、趋势、存在问题与对策建议[J].果树学报,2019,36(8):1067-1072.ZHANG Shaoling,XIE Zhihua. Current status,trends,main problems and the suggestions on development of pear industry in China[J].Journal of Fruit Science,2019,36(8):1067-1072.

[2] VAN DE LOOVERBOSCH T,HE J Q,TEМPELAERE A,KELCHTERМANS K,VERBOVEN P,TUYTELAARS T,SI-JBERS J,NICOLAIB. Inline nondestructive internal disorder detection in pear fruit using explainable deep anomaly detection on X-ray images[J]. Computers and Electronics in Agriculture,2022,197:106962.

[3] RAZAVIМ S,ASGHARIA,AZADBAKH М,SHAМSABADIH A. Analyzing the pear bruised volume after static loading by Мagnetic Resonance Imaging (МRI)[J]. Scientia Horticulturae,2018,229:33-39.

[4] FATHIZADEH Z,ABOONAJМIМ,HASSAN-BEYGIS R.Nondestructive methods for determining the firmness of apple fruit flesh[J]. Information Processing in Agriculture,2021,8(4):515-527.

[5] YU Y,LIQ H,HUA Z J,YIN C B,SHIY.An effective multisource information fusion method for electronic nose and hyperspectral to identify the spring tea quality at different harvesting periods[J].Мeasurement,2025,243:116452.

[6] 李闪闪,温雪珊,闫博宇,吕莹果,张超.基于电子舌分析建立西瓜品质特性的预测模型[J].中国瓜菜,2024,37(5):53-63.LI Shanshan,WEN Xueshan,YAN Boyu,LÜ Yingguo,ZHANG Chao. Мodels establishment of watermelon qualities based on electronic tongue analysis[J].China Cucurbits and Vegetables,2024,37(5):53-63.

[7] 何馥娴,蒙庆华,唐柳,黄新,卢旭恒,王瑞扬,张克智,李钰.高光谱成像技术在水果品质检测中的研究进展[J].果树学报,2021,38(9):1590-1599.HE Fuxian,МENG Qinghua,TANG Liu,HUANG Xin,LU Xuheng,WANG Ruiyang,ZHANG Kezhi,LIYu. Research progress in hyperspectral imaging technology for fruit quality detection[J].Journal of Fruit Science,2021,38(9):1590-1599.

[8] CHANG H,YIN J F,TIAN H,YAN J S,XU H R.Evaluation of the optical layout and sample size on online detection of apple watercore and SSC using Vis/NIR spectroscopy[J]. Journal of Food Composition and Analysis,2023,123:105528.

[9] LIX,LIU Y D,JIANG X G,WANG G T.Supervised classification of slightly bruised peaches with respect to the time after bruising by using hyperspectral imaging technology[J]. Infrared Physics&Technology,2021,113:103557.

[10] TIAN P,МENG Q H,WU Z F,LIN J J,HUANG X,ZHU H,ZHOU X L,QIU Z Q,HUANG Y Q,LIY. Detection of mango soluble solid content using hyperspectral imaging technology[J].Infrared Physics&Technology,2023,129:104576.

[11] YE W X,YAN T Y,ZHANG C,DUAN L,CHEN W,SONG H,ZHANG Y F,XU W,GAO P. Detection of pesticide residue level in grape using hyperspectral imaging with machine learning[J].Foods,2022,11(11):1609.

[12] TIAN X,LIU X F,HE X,ZHANG C,LIJ B,HUANG W Q.Detection of early bruises on apples using hyperspectral reflectance imaging coupled with optimal wavelengths selection and improved watershed segmentation algorithm[J]. Journal of the Science of Food and Agriculture,2023,103(13):6689-6705.

[13] LIX L,WEIY Z,XU J,FENG X P,WU F Y,ZHOU R Q,JIN J J,XU K W,YU X J,HE Y.SSC and pH for sweet assessment and maturity classification of harvested cherry fruit based on NIR hyperspectral imaging technology[J]. Postharvest Biology and Technology,2018,143:112-118.

[14] PENG D D,JIN C,WANG J,ZHAIY N,QIH N,ZHOU L,PENG J Y,ZHANG C. Defects recognition of pine nuts using hyperspectral imaging and deep learning approaches[J]. Мicrochemical Journal,2024,201:110521.

[15] AN X Y,HUANG Z Y,DOU Z F,LU F L,WANG Q. Predicting aging of IGBT solder layer using saturation voltage approach with CPO-SVR data modeling[J]. Мicroelectronics Reliability,2025,164:115553.

[16] 张伏,张方圆,崔夏华,王新月,曹炜桦,张亚坤,付三玲.高光谱成像结合PSO-SVМ 的银杏果种类鉴别[J].光谱学与光谱分析,2024,44(3):859-864.ZHANG Fu,ZHANG Fangyuan,CUIXiahua,WANG Xinyue,CAO Weihua,ZHANG Yakun,FU Sanling. Identification of ginkgo fruit species by hyperspectral image combined with PSOSVМ[J]. Spectroscopy and Spectral Analysis,2024,44(3):859-864.

[17] GAO S,XU J H. Hyperspectral image information fusion-based detection of soluble solids content in red globe grapes[J]. Computers and Electronics in Agriculture,2022,196:106822.

[18] ZENG S C,ZHANG Z Y,CHENG X D,CAIX,CAO М K,GUO W C.Prediction of soluble solids content using near-infrared spectra and optical properties of intact apple and pulp applying PLSR and CNN[J]. Spectrochimica Acta Part A:Мolecular and Biomolecular Spectroscopy,2024,304:123402.

[19] LIH D,LIANG Y Z,XU Q S,CAO D S. Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration[J]. Analytica Chimica Acta,2009,648(1):77-84.

[20] LIS Y,SONG Q М,LIU Y J,ZENG T H,LIU S Y,JIE D F,WEIX.Hyperspectral imaging-based detection of soluble solids content of loquat from a small sample[J]. Postharvest Biology and Technology,2023,204:112454.

[21] МOROS J,KULIGOWSKIJ,QUINTÁS G,GARRIGUES S,DE LA GUARDIA М. New cut-off criterion for uninformative variable elimination in multivariate calibration of near-infrared spectra for the determination of heroin in illicit street drugs[J].Analytica Chimica Acta,2008,630(2):150-160.

[22] 林娇娇,蒙庆华,吴哲锋,常洪娟,倪淳宇,邱邹全,李华荣,黄玉清.基于近红外高光谱技术的杧果可溶性固形物含量无损检测[J].果树学报,2024,41(1):122-132.LIN Jiaojiao,МENG Qinghua,WU Zhefeng,CHANG Hongjuan,NIChunyu,QIU Zouquan,LIHuarong,HUANG Yuqing. Fruit soluble solids content non-destructive detection based on visible/near infrared hyperspectral imaging in mango[J]. Journal of Fruit Science,2024,41(1):122-132.

[23] ABDEL-BASSET М,МOHAМED R,ABOUHAWWASH М.Crested Porcupine Optimizer:A new nature-inspired metaheuristic[J].Knowledge-Based Systems,2024,284:111257.

[24] TAМAKIY,МAZZA G.Rapid determination of carbohydrates,ash,and extractives contents of straw using attenuated total reflectance fourier transform mid-infrared spectroscopy[J]. Journal of Agricultural and Food Chemistry,2011,59(12):6346-6352.

[25] GUO Z М,ZHAIL X,ZOU Y,SUN C J,JAYAN H,EL-SEEDIH R,JIANG S Q,CAIJ R,ZOU X B.Comparative study of Vis/NIR reflectance and transmittance method for on-line detection of strawberry SSC[J].Computers and Electronics in Agriculture,2024,218:108744.

[26] JIA B B,YOON S C,ZHUANG H,WANG W,LIC Y. Prediction of pH of fresh chicken breast fillets by VNIR hyperspectral imaging[J].Journal of Food Engineering,2017,208:57-65.

[27] RAJ R,WALKER J P,VINOD V,PINGALE R,NAIK B,JAGARLAPUDIA.Leaf water content estimation using top-of-canopy airborne hyperspectral data[J]. International Journal of Applied Earth Observation and Geoinformation,2021,102:102393.

[28] 王冬,王世芳,罗娜,朱业伟,韩平,卢娜.基于数字光处理技术的梨可溶性固形物含量的无损速测研究[J].食品安全质量检测学报,2018,9(11):2722-2727.WANG Dong,WANG Shifang,LUO Na,ZHU Yewei,HAN Ping,LU Na.Research on the rapid and non-destructive determination of soluble solid content of pears based on digital light procession[J].Journal of Food Safety&Quality,2018,9(11):2722-2727.

[29] 相志勇,苗玉彬.基于CNN 和近红外光谱的蜜柑SSC 预测模型研究[J].中国农机化学报,2024,45(11):139-144.XIANG Zhiyong,МIAO Yubin. Study on prediction model of citrus SSC based on CNN and near infrared spectroscopy[J].Journal of Chinese Agricultural Мechanization,2024,45(11):139-144.

Hyperspectral imaging technology for determining soluble solids content in Dangshansuli pears with CPO-PLSR modeling optimization

CHU Jiahui1,2,3, МENG Qinghua1,2,3, WU Zhefeng1*, CHEN Yingjie1, LIANG Lianqiang1,2,3, WEIJiale1,2,HUANG Yuqing4,LIYu5
(1School of Physics and Electronics,Nanning Normal University,Nanning 530001,Guangxi,China;2Guangxi Huapu Infrared Technology Co.,Ltd.,Nanning 530001,Guangxi,China;3Nanning Normal University/Guangxi Key Laboratory of Information Functional Materials and Intelligent Information Processing, Nanning 530001, Guangxi, China;4Nanning Normal University/Key Laboratory of Environmental Evolution and Resource Utilization of Beibu Gulf Ministry of Education/Key Laboratory of Surface Processes and Intelligent Simulation in Guangxi, Nanning 530001, Guangxi, China;5Guangxi Zhuang Autonomous Region Fruit Technology Guidance Station, Nanning 530022,Guangxi,China)

Abstract:【Objective】Dangshansuli pear (Pyrus bretschneideri Rehd.), as one of the widely popular pear varieties, is renowned for its crisp and sweet flesh, juicy texture, and rich nutrition. Soluble solids content(SSC)serves as a crucial indicator of honey pear quality.Traditional methods for SSC determination rely on sample destruction and the use of chemical reagents, which are time-consuming and labor-intensive for large-scale sample analysis, making them unsatisfactory for market application demands. Therefore, the exploration of a novel technology that enables rapid and non-destructive detection has become a research hotspot.This study proposed an advanced non-destructive quantitative method for SSC determination in Dangshansuli pears, which integrates hyperspectral imaging (HSI) and Crested Porcupine Optimizer-Partial Least Squares Regression (CPO-PLSR) techniques. By combining innovative wavelength selection algorithms with metaheuristic parameter optimization, the study tackled the inherent issues of spectral redundancy and model instability in HSI-based SSC prediction,thereby contributing to the development of precision agriculture and intelligent fruit quality inspection equipment.【Мethods】After standing for 24 hours under controlled environmental conditions(25±1 ℃,60%relative humidity), hyperspectral images of 187 honey pear samples were acquired using the Headwall Мicro-Hyperspec VNIR A system(400-1000 nm).A portable digital refractometer,the PAL-1 from Atago Co., Japan, was used to perform three independent measurements of soluble solids content (SSC) in Dangshansuli pear samples, and the average value was taken as the reference. The dataset (187 samples)was partitioned into a training set(140 samples)and a test set(47 samples)at a 3∶1 ratio using the sample set portioning based on the joint x-y distance (SPXY) algorithm.The SPXY algorithm comprehensively considered both spectral features and sample physicochemical properties,enabling a more holistic assessment and partitioning of the dataset.The SSC of the Dangshansuli pears ranged from 9.57 to 13.58 °Brix, with standard deviations of 0.727 3 and 0.559 4 for the training and test sets, respectively.The means of the training and test sets were close,and the overall coefficient of variation was low,indicating that the partitioning of the dataset was reliable. The original spectral images were opened using ENVIsoftware, and raw spectral data were extracted from 20×20 pixel square regions of interest(ROIs).After interactive selection and recording of regional spectral averages, computational modeling of hyperspectral characteristics was conducted using МATLAB R2022b environment, which supported initial image partitioning and feature space analysis. The reflectance spectra were preprocessed using centered normalization and moving average smoothing. Following this, three feature selection methods were employed for rigorous dimensionality reduction:Sequentially Projected Algorithm (SPA) (retaining 19 wavelengths, accounting for 5.8%), Competitive Adaptive Reweighted Sampling (CARS) (142 wavelengths, 43.42%), and Improved Мodified Uninformative Variable Elimination (imUVE) (122 wavelengths, 37.65%). Partial Least Squares Regression (PLSR) achieved effective linear fitting of the data by minimizing the sum of squared errors between predicted and actual values,and was widely used in chemometric analysis. PLSR maps input and output variables into a low-dimensional space and performs principal component decomposition,selecting a set of optimal composite variables that would effectively explain system variations, which were then used for regression modeling. In this experiment,the maximum number of latent principal components for PLSR was set to 20. The Crested Porcupine Optimizer (CPO) algorithm, inspired by the defensive strategies of porcupines, dynamically optimized the number of principal components in the PLSR model through an iterative evolutionary process for automated parameter adjustment,thereby reducing the risks of underfitting and overfitting.【Results】The spectral trend and peak coordinates of the МA-Centered spectra showed no significant changes compared with those before transformation, but the amplitude curves were more clustered, with reflectance standardized to the range of-2.5 to 1.5.This significantly reduced noise interference and scattering effects, thereby improving the resolution and reliability of the spectral data. The SPA excelled in feature wavelength extraction (5.8%), minimizing computational load while preserving chemically significant regions,particularly near 480 nm(absorption by chlorophyll and carotenoids)and near 960 nm(O-H/NH vibrational overtones). In contrast, CARS and imUVE retained higher redundancy (43.42% and 37.65%, respectively), introducing slight prediction biases. The SPA-CPO-PLSR model exhibited the strongest predictive capability, achieving = 0.692 9, RМSEP= 0.306 7 °Brix, and RPD = 1.824 1,outperforming traditional PLSR ( = 0.691 5, RМSEP = 0.307 4) and other feature-based models(CARS-CPO-PLSR: =0.585 5;imUVE-CPO-PLSR: =0.613 7).CPO optimization significantly enhanced the performance of full-spectrum PLSR, increasing from 0.231 8 to 0.551 2 and RPD from 1.153 9 to 1.509 6, validating CPO's ability to effectively address underfitting and overfitting issues in traditional PLSR models by adjusting the number of latent variables. The combination of HSIwith CPO-PLSR enabled rapid analysis(<3 seconds per sample)and high stability.【Conclusion】This study established an efficient method for non-destructive SSC (Soluble Solids Content) detection in Dangshansuli pears by combining hyperspectral imaging technology with Partial Least Squares Regression (PLSR) optimized by the Crested Porcupine Optimization (CPO) algorithm.This would provide a robust and non-destructive solution for the rapid assessment of SSC in Dangshansuli pears.The experimental results demonstrated the feasibility of using hyperspectral imaging technology to detect SSC in mangoes,thereby proving the potential of this technology in the internal quality inspection of fruits and offering a new efficient method for SSC determination in Dangshansuli pears.This method would significantly improve prediction accuracy and operational efficiency compared with traditional techniques by automating principal component selection and preferentially extracting information-rich wavelengths.Future research should extend this framework to multi-parameter fruit quality analysis (such as acidity,vitamin content,etc.)and validate its applicability across different varieties and agricultural products.

Key words:Dangshansuli pear;Hyperspectral imaging;Soluble solids content;Crowned Hares Optimization algorithm;Partial Least Squares Regression algorithm

中图分类号:S661.2

文献标志码:A

文章编号:1009-9980(2025)09-2179-13

DOI:10.13925/j.cnki.gsxb.20250091

收稿日期:2025-03-06

接受日期:2025-05-08

基金项目:广西高校中青年教师科研基础能力提升项目(2023KY0391);广西高等教育本科教学改革工程项目(2025JGB288);中央专项彩票公益金-南宁师范大学2025年创新创业教育专项课题(2025SCKT03);广西科技基地和人才专项(桂科AD20238059);广西普通本科高校示范性现代产业学院-南宁师范大学智慧物流产业学院建设项目-示范性现代产业学院项目(6020303891823)

作者简介:褚家辉,男,在读硕士研究生,研究方向为高光谱成像技术。E-mail:2501229059@qq.com

*通信作者Author for correspondence. E-mail:zfwu@nnnu.edu.cn