猕猴桃因富含维生素C、膳食纤维和多种矿物质而受到消费者的喜爱[1]。可溶性固形物含量(soluble solids content,SSC)主要指可溶性糖类含量,是衡量猕猴桃果实口感甜度和成熟度的关键品质指标之一[2-3],直接影响消费者购买意愿和水果市场价格[4]。因此,实现猕猴桃果实SSC的精准、快速定量检测,对监测果实内部品质、优化种植管理条件以及提升市场流通竞争力具有重要意义。
目前,果品内部品质指标分析测定主要依靠高准确性的有损检测技术,包括折射仪、液相色谱法等,但在实际应用中存在成本高、破坏性强等局限性[5]。为满足快速、无损的果品品质监测需求,核磁共振、光谱分析和电子鼻等技术,已被广泛研究并应用于检测水果的内部品质[6]。其中,高光谱成像技术作为新兴的光学检测方法,可同时获取待测对象的内外部品质信息,即二维空间和一维光谱信息。二维空间信息用于直接提取待测对象的外部品质特征(如大小、形状);将一维光谱信息与对象特定成分及含量等特征进行耦合分析,可以实现果品内部品质预测评估[7]。因此,国内外学者已逐渐将高光谱技术用于高效、无损的果品品质监测与分级研究中。Shao 等[8]利用可见光和近红外(Vis-NIR)高光谱成像技术监测不同成熟期的冬枣果实SSC,以分析确定其货架期。林娇娇等[9]利用近红外高光谱(NIR-HSI)成像技术实现了不同品种杧果SSC的分析预测。高光谱技术相较于传统近红外技术,具有更广的光谱覆盖范围和更高的光谱分辨率[10],能够捕捉果实内部可溶性固形物含量的精细空间分布,提供更深入的皮下成分信息,从而在非破坏性检测中实现更接近于传统破坏性测量的精确性,同时具备分析更复杂成分的潜力。尽管高光谱技术在果品内部品质检测中提供了更加深入的数据基础,但仍需通过预处理如Savitzky-Golay(SG)平滑、多元散射校正(multiplicative scatter correction,MSC)等方法来用于预先校准光谱数据,去除环境噪声,从而提高原始光谱数据的可靠性[11]。为进一步保留关键有效信息并实现数据降维,特征波段提取如主成分分析(principal component analysis,PCA)、遗传算法(genetic algorithm,GA)等[12]方法被采用,以平衡模型准确性和预测效率。针对不同果品及其内部品质指标的光谱响应独特性,还需明确品质指标与其敏感特征波段之间的耦合关系,以建立可泛化的果品品质预测模型。
针对光谱技术在果品品质预测中的应用,机器学习模型主要分为线性和非线性模型两类。其中,线性模型如偏最小二乘回归(partial least squares regression,PLSR)模型、岭回归(ridge regression)模型等,已被广泛应用于光谱数据分析领域,具有可解释性强、计算效率高的优势[13]。但面对复杂高维的光谱数据时泛化能力较弱,难以动态适应跨域监测场景。目前,非线性机器学习在处理光谱数据方面展现出良好的适应性,该模型能够自主学习特征波段与内部品质指标间的潜在耦合关系并不断优化提升预测效果,适用于大规模数据集的分析任务[14-15]。因此,将光谱成像技术与非线性机器学习算法结合,可以充分发挥两者优势,以实现不同批次、实时、准确的果品品质无损检测。Li等[16]利用高光谱成像技术结合偏最小二乘回归(PLSR)、支持向量机回归(support vector machine regression,SVR)、反向传播神经网络(back propagation neural network,BPNN)以及卷积神经网络(convolutional neural network,CNN)等机器学习方法对枇杷SSC 进行无损检测,结果表明,在小样本情况下非线性机器学习(SVR)预测模型的精度高于其他模型,能够实现快速、精准预测果品内部品质指标。这些研究强调了非线性模型在光谱数据分析中展现出优越的预测性能,尤其在处理复杂数据时具有更强的适应性和泛化能力。因此,将非线性机器学习算法应用于果品品质的无损检测,不仅能够提升预测精度,还为大规模、实时果品品质检测提供了可行的解决方案。
尽管已有大量研究在光谱数据处理的某个环节(数据预处理、特征波段提取等)取得了显著进展,但对于整个预测流程的系统协调和优化仍存在不足,限制了模型的稳健性和普适性[17-18]。因此,笔者针对米良一号猕猴桃果实的SSC预测,提出了一种系统优化策略,深入分析其光谱特性,综合考虑数据预处理、特征波段提取及模型构建等多个环节,旨在提高模型的预测精度与泛化能力。对多种光谱数据预处理方法进行了比较分析,筛选出最优的预处理方法以提升数据质量。然后采用多种特征波段提取方法,分别提取与猕猴桃SSC 相关的关键光谱波段。在此基础上,构建PLSR、SVR、RFR 和BPNN 模型,评估各模型与SSC实测值的耦合关系,并对其预测性能进行比较。基于性能最优的模型,笔者进一步引入粒子群优化算法(particle swarm optimization,PSO),对模型参数进行优化,提升预测精度和泛化能力。通过对不同环节、不同方法的组合预测效果分析,笔者构建了一套基于高光谱成像技术的猕猴桃果实SSC 预测最适组合方案,为实现猕猴桃果实品质监测和分级分选的产业化、智能化提供理论依据。
试验材料为米良一号猕猴桃果实,种植于河南省郑州市中国农业科学院郑州果树研究所猕猴桃试验园。随机选择15 株长势一致的植株,按照NY/T 1392—2015《猕猴桃采收与贮运技术规范》中的适宜采收期[19]指标统一采集果实,每株采集发育良好、大小均匀一致的果实10个,共选取150个样本,装入采样箱,并运至实验室进行后续相关数据采集工作。
笔者搭建了一套专门的光谱信息采集系统用于采集猕猴桃果实高光谱图像数据,包括环境模拟和数据采集模块,如图1所示。其中,在位移平台上放置的暗箱斜上方安装固定两枚钨卤素灯(200 W),以模拟稳定均匀的自然光照环境。将Rikola便携式高光谱成像仪(500~900 nm,北京德中天地)镜头朝下,架设于暗箱正上方50 cm处,并通过数据线连接外置装有高光谱相控软件(rikola hyper spectral imager,Rikola HSI)的计算机,实现猕猴桃果实的高光谱图像实时采集。试验开展于2023 年10 月12 日,处于猕猴桃成熟期,采集过程中将猕猴桃果实标记编号,与标准白板(JY-WS1,广州景颐光电)一起均匀放置在位移平台上进行拍摄,波长间隔设置为2 nm,共采集了194个波段的猕猴桃果实高光谱图像。
图1 猕猴桃果实高光谱信息采集系统示意图
Fig.1 Schematic diagram of kiwifruit fruit hyperspectral information acquisition system
为提高采集的光谱数据质量,降低数据冗余,保障模型预测准确高效,笔者分别对原始高光谱图像进行以下数据处理:(1)白板校正,确定全白基准,保证光谱反射率数据准确性;(2)ROI(region of interest,ROI)区域提取,以明确有效图像数据范围;(3)光谱预处理,进一步消除噪声干扰,减小数据误差;(4)特征波段处理,实现数据降维,提取关键特征信息。
1.3.1 白板校正 高光谱成像仪在采集光谱时,暗电流和光源亮度分布不均匀等现象会导致光谱采集对象的反射率波动,进而影响高光谱图像的整体质量。因此,需针对原始高光谱图像反射率进行白板校正[20],在ENVI(environment for visualizing images software,Research Systems Inc.,Boulder,Co,USA)软件中选取标准白板区域的多个像素点,将其平均辐亮度作为标准值与相应波段下的反射率匹配,以校正图像中其他区域像素点的各波段反射率。校正公式如下:其中,R为待计算像素点的反射率,RW为白板反射率,LW为白板像素点辐亮度值,L为待计算像素点辐亮度值。
1.3.2 ROI区域数据提取 在高光谱图像校正的基础上,利用ENVI软件选取猕猴桃果实部分作为感兴趣区域(ROI),并计算不同波段下ROI内所有像素点的光谱反射率平均值,作为对应样本果实的反射率。在提取并保存猕猴桃果实高光谱图像中的有效信息后,利用MATLAB R2022b 软件执行光谱数据的后续预处理及分析与预测等相关工作。
1.3.3 光谱预处理 为进一步降低因光线、噪声、基线漂移等不确定因素造成的光谱数据误差,提高数据质量,需要对有效数据进行预处理[21]。笔者分别采用了4 种常见预处理方法对光谱数据进行优化,包括多元散射校正(MSC)、Savitzky-Golay 平滑(SG)、Savitzky-Golay 平滑结合多元散射校正(SGMSC)和Savitzky-Golay 平滑结合标准正态变量变换(SG-SNV)。以上4 种方法各具特点,其中,MSC可以有效降低样本散射对光谱信息的影响,从而增强光谱吸收信息与成分含量的相关性,提高吸收光谱的信噪比[22];SG平滑通过拟合局部光谱趋势并去除不符合趋势的噪声成分,使光谱数据更加平滑准确[23];将SG 平滑分别和MSC、SNV 结合,前者能校正散射效应引起的光谱失真,后者可以补偿由颗粒大小和表面散射引起的偏差[24]。为获得更清晰准确的光谱数据,笔者系统对比4 种常见光谱预处理方法在猕猴桃SSC 预测中的应用效果,结合偏最小二乘回归(PLSR)模型量化各方法的优劣,旨在筛选出最佳预处理策略,以优化数据质量,为后续建模分析与预测提供高效、准确的数据支持,从而提高整体分析流程的准确度和效率。
1.3.4 特征波段提取 由于高光谱数据具有复杂高维的特征信息,为有效消除原始数据中的线性相关性和不稳定性,需提取特征波段信息以解决维数过多等问题[25]。笔者分别采用了竞争性自适应重加权采样(competitive adaptive reweighted sampling,CARS)、连续投影(successive projections algorithm,SPA)、随机蛙跳(random frog,RF)3种算法提取与猕猴桃果实SSC 变化相关的有效光谱特征波段。其中,CARS通过模拟“生物进化”过程,自适应地对光谱波段进行重加权和选择,逐步淘汰冗余和不重要的波段,从而提高模型预测性能[26];SPA算法则利用最少冗余且最具代表性的波长组合来选择光谱信息,以解决共线性问题[27-28];RF算法通过序贯策略生成不同的模型,确定各波段变量的选择概率,以评估不同波段的重要性[29],进而实现对高维数据的有效变量筛选。
为获取猕猴桃果实SSC实测数据作为品质预测模型的预测效果验证,笔者采用PAL-BX/ACID 8数字折射仪(0.0~90.0°Brix;0.1°Brix;ATAGO)测量样本猕猴桃果实SSC 实测值;SSC 测定参考NY/T 2637—2014《水果、蔬菜制品可溶性固形物含量的测定折射仪法》[30],具体操作如下:(1)对猕猴桃果实样本进行去皮处理,以消除果皮对果肉内部可溶性固形物含量测定的影响;(2)取适量处理后的果肉进行压榨,提取出清澈的果汁样本,利用ATAGO 数字折射仪进行测定。同时,为确保数据的准确性,对每份样本进行3 次独立测量,计算平均值作为样本果实的SSC实测值。
原始数据集包含150 个米良一号样本果实,按照3∶1的比例随机划分为训练集和测试集。样本集的SSC参考值如表1所示。表1展示了训练集和测试集的最小值、最大值、平均值及标准差。
表1 猕猴桃SSC 参考值分布
Table 1 Distribution of results for SSC in kiwifruit%
样本Sample训练集Training set测试集Testing set样本数Number 120最小值Minimum value 8.55最大值Maximum value 16.7平均值Average value 12.22标准差Standard deviation 1.664 30 9.24 15.9 12.42 1.641
1.5.1 基于机器学习的猕猴桃果实SSC预测模型通过对猕猴桃果实样本的SSC 特征光谱数据及其实测值的耦合关系进行建模,可泛化实现猕猴桃果实SSC的无损预测。笔者利用随机数排序方法,将150 个猕猴桃果实样本划分为训练集(120 个)和测试集(30 个),并分别采用偏最小二乘回归(PLSR)、支持向量机回归(SVR)、随机森林回归(random forest regression,RFR)、反向传播神经网络(BPNN)4种机器学习模型建立所需耦合模型。
为了验证不同机器学习方法在猕猴桃SSC 预测中的效果,笔者基于各算法处理高维光谱数据的能力和适用性,采用对比分析方法评估其实际预测性能,并确定最优预测方案。常用的PLSR、SVR和RFR模型分别擅长于解决多重共线性问题、非线性回归和复杂数据的泛化问题。PLSR 模型基于主成分分析和最小二乘回归,通过探索输入变量(样本光谱数据)与输出变量(SSC 预测值)之间的最大协方差,在高度相关的样本变量下对光谱数据进行建模分析[31];SVR 模型在高维光谱特征空间中,通过最优超平面并最小化光谱数据点与其距离来稳定实现回归预测,对噪声和异常值具有鲁棒性,在捕捉光谱数据与目标变量关系上表现出较高准确性[32];RFR模型通过综合多个决策树的预测结果,有效捕捉光谱数据与猕猴桃果实SSC的潜在非线性规律,擅长分析光谱数据与目标变量之间的复杂关联关系,有效降低过拟合风险,提高预测稳定性和泛化能力[33]。
为了优化模型性能,笔者引入了反向传播神经网络(BPNN)模型,利用反向传播算法优化神经网络的权重和偏置[34],以非线性方式学习猕猴桃果实高光谱数据与SSC 之间的复杂映射关系,具有强适应性和精确预测特性,能够捕捉光谱数据中的细微变化。本研究旨在通过比较4种模型在猕猴桃可溶性固形物含量(SSC)预测中的表现,系统评估其预测效果。为提升模型精度,选取表现最优的模型,借助粒子群优化算法(PSO)对模型参数进行全局搜索与优化,解决了高维光谱数据在传统算法下难以突破的精度瓶颈。通过组合常用算法和新兴算法,并引入PSO 进行优化,有效提升了猕猴桃果实SSC 预测的准确性和模型的鲁棒性,为猕猴桃SSC的无损检测提供了一套更为高效可靠的最优组合方案。
粒子群优化算法(particle swarm optimization,PSO)是一种基于群体智能的优化算法,由Kennedy和Eberhart于1995年提出。该算法模拟鸟群觅食行为,通过一群粒子在解空间中的协同搜索找到最优解[35]。每个粒子代表一个候选解,具有速度和位置两个属性。粒子根据自身的历史最优解(pbest)和全局最优解(gbest)来更新位置和速度,不断逼近最优解。在高光谱预测模型中,PSO 用于优化模型的参数配置。每个粒子代表一个候选的模型参数组合,并根据个体最优解和全局最优解的反馈,不断调整参数,直到找到最优参数配置。这种机制可以帮助机器学习预测模型,快速优化其参数,提高模型在猕猴桃SSC预测中的精度和泛化能力。
粒子速度的更新公式为:
位置更新公式为:
其中,vi表示粒子速度,t 为迭代次数,xi表示粒子的参数值,w为惯性权重,c1和c2为加速因子,r1和r2为随机数,pbesti为粒子i 迄今为止找到的最佳位置,gbest为全体粒子中找到的全局最佳位置。
1.5.2 模型精度评价 采用决定系数(coefficient of determination,R2)和均方根误差(root mean squares error,RMSE)两种误差指标评估模型性能。R2越接近1,RMSE 越小(训练集和测试集的决定系数分别为R2c 和R2P ,均方根误差分别为RMSEC 和RMSEP),表明模型的预测能力越强。其计算公式如下:
式中,N是样本果实的总数,是模型预测的第i个样本的SSC 值,为所有样本SSC 实际观测值的平均值,yi是第i个样本的SSC实际观测值。
本试验主要分为三部分,包括原始数据采集、光谱数据处理以及建立最适SSC 预测模型,总体研究流程图如图2所示。
图2 总体研究流程图
Fig.2 The overall research flowchart
2.1.1 光谱曲线分析 笔者选取500~900 nm 范围内的光谱进行分析。首先,对150 个米良一号猕猴桃果实样本的光谱反射率进行平均计算,并绘制平均反射率曲线,如图3-A 所示。在500~630 nm 波段,果实的光谱反射率相对较低,这一结果与叶绿素吸收带内的情况相关,受到叶绿素中C-H 光谱敏感基团对光的吸收影响;在500~610 nm 范围内,光谱变化缓慢;在580~610 nm波段内,光谱反射率下降,继而稳定;在610~750 nm 波段内,光谱反射率急剧增加,这表明果实表面色素的吸收性质发生了变化。在750~900 nm范围内,光谱反射率持续较高且略微波动,对应水的吸收峰,O-H光谱敏感基团吸收率下降[36-38]。原始光谱数据可能存在仪器产生的电噪声等干扰信息,为确保数据的准确性与可靠性,对原始光谱数据进行预处理[39],并对预处理后的光谱数据绘图,结果见图3-B~E。
图3 样本果实不同预处理后的光谱曲线
Fig.3 Spectral curves of sample fruits after different pre-treatments
在图3-A中,651.43 nm附近的光谱曲线受噪声和基线漂移的影响,导致部分样本在该波长处未能形成明显清晰的峰值。由图3-B可知,经过MSC预处理后,光谱曲线高度重合,基线漂移问题明显缓解,但仍存在噪声影响,部分样本在651.43 nm 处的峰值仍不明显;SG平滑处理能进一步提升光谱曲线的平滑度,专注于消除局部噪声,保留了光谱的细微反射率差异(图3-C)。然而,单独使用SG处理可能无法全面解决问题。当将SG 与MSC 或SNV 结合使用时,效果更为显著,不仅提高了光谱曲线的平滑度和特征峰的清晰度,还成功消除了651.43 nm 处的无峰现象(图3-D、E)。虽然SG-MSC 和SG-SNV处理会改变光谱的轮廓形状,但能够有效揭示潜在的光谱峰。此外,SG-SNV 虽能实现光谱标准正态化,但也伴随着噪声放大的问题。
2.1.2 全波段建模分析 分别对MSC、SG、SGMSC、SG-SNV 等4 种预处理后的光谱数据建立PLSR模型,以测试集的决定系数R2P 和均方根误差RMSEP来确定最佳预处理方法,建模结果如表2所示。通过对比和分析发现,MSC对样本果实光谱预处理的效果最优,其测试集的决定系数R2P 大于0.7,表明MSC 处理后的光谱反射率与样本果实SSC 的相关性得到显著增强,选择MSC处理后的光谱为研究光谱。
表2 不同预处理方法建模结果对比
Table 2 Comparison of modelling results of different preprocessing methods
RMSEC 0.925 4 0.945 6 0.971 2 0.978 8方法Method MSC SG SG-MSC SG-SNV训练集Training set 测试集Testing set R2 C R2 P 0.695 0.641 0.638 0.635 0.713 0.688 0.675 0.592 RMSEP 0.895 4 0.917 8 0.962 1 1.084 7
笔者采集的高光谱图像包含194 个波段,使用全波段进行建模时,分析时间长且容易造成信息冗余。为此,采用CARS、SPA、RF 等3 种算法对经过MSC预处理后的光谱数据分别进行特征波段提取,提取结果分布如图4所示。
图4 不同特征波段算法提取结果
Fig.4 Extraction results of different characteristic wavelength algorithms
表3 为3 种方法提取特征波段的具体结果,经CARS提取的28个特征点主要集中在700~850 nm,但分布较为不均,部分特征点位于525~700 nm;经SPA提取的30个特征点主要集中在725~878 nm;经RF 提取的21 个特征点主要集中在600~700 nm 和725~825 nm。3种方法所选的特征波段主要集中在750~900 nm,主要因为在该波段范围内猕猴桃果实的光谱数据差异明显,包含更多与SSC 有关的光谱信息。
表3 特征波段提取结果
Table 3 Feature bands extraction results
特征波段Characteristic wavelength bands/nm 531.02、554.96、563.22、619.21、675.27、687.19、701.14、707.46、709.48、710.98、715.95、723.39 725.24、739.14、749.15、761.13、763.38、765.05、767.42、769.19、771.32、805.14、821.36、823.38 825.39、858.85、891.05、893.15 519.11、593.31、605.5、671.14、725.24、739.14、743.28、747.25、751.34、761.13、765.05、767.42 769.19、771.32、775.33、779.28、782.79、785.33、787.30、789.22、793.39、817.32、841.21、864.95 871.19、873.31、875.36、878.56、897.22、901.34 539.32、541.32、547.06、607.41、619.21、629.03、665.09、669.09、677.31、689.13、707.47、712.99 719.14、751.34、763.39、771.32、796.98、817.32、843.29、893.15、901.34波段选择算法Spectral band selection algorithm CARS特征波段数Number of characteristic wavelength bands 28 SPA 30 RF 21、、、、、
为确定猕猴桃果实SSC 预测最适的组合方案,笔者基于CARS、SPA 和RF 等3 种方法筛选后的特征波段光谱数据作为输入,以SSC预测值作为输出,分别建立了4种预测模型,包括PLSR、SVR、RFR以及BPNN。表4为不同模型组合的预测结果。
表4 不同特征提取方法机器学习模型结果
Table 4 Machine learning model results for different feature extraction methods
建模方法Modeling method PLSR训练集Training set 测试集Testing set R2P R2C SVR RFR BPNN输入变量Input variable CARS SPA RF CARS SPA RF CARS SPA RF CARS SPA RF 0.787 0.705 0.762 0.930 0.925 0.914 0.922 0.906 0.892 0.685 0.665 0.641 RMSEC 0.791 3 0.887 1 0.824 1 0.388 7 0.392 2 0.426 0 0.396 7 0.464 1 0.510 6 1.185 6 1.246 9 1.296 2 0.813 0.807 0.744 0.882 0.850 0.841 0.855 0.836 0.821 0.633 0.616 0.623 RMSEP 0.799 7 0.869 5 0.855 1 0.526 0 0.541 2 0.591 4 0.532 2 0.601 5 0.662 9 1.230 8 1.289 1 1.213 0
经过CARS、SPA、RF 特征提取后,得到的特征点输入PLSR 预测模型与全光谱PLSR 模型相比,3种提取方法均提升了模型的预测效果。相较于4种预处理后的全光谱PLSR 模型,R2c 提升0.010~0.092,RMSEC 降低0.038 3~0.134 1;R2p 提升0.031~0.100,RMSEP 降低0.025 9~0.095 7,这说明,以上3种方法有效地去除了光谱中的冗余信息,降低了数据的维度,提高了模型的精度,同时保留了用于反演SSC 的重要光谱信息。以上结果表明,不论采用哪种建模方法,CARS 特征波段的选取均能在不同程度上优化模型,使其在解决变量数多的同时更多保留有效信息。图5为基于CARS提取的特征波段作为输入的4 种预测模型中,训练集和测试集中的样本预测值与实测值之间的关系散点图。
图5 CARS 特征提取算法的不同模型预测结果
Fig.5 Prediction results of different models of CARS feature extraction algorithm
SVR 模型大多数预测点集中在拟合曲线上,表现出较好的预测性能和稳定性,最佳模型为CARSSVR,训练集和测试集的决定系数分别为R2c =0.930,R2p =0.88 2,RMSEC 为0.388 7,RMSEP 为0.526 0,其他SVR 模型的测试集决定系数均高于0.80,这主要是因为SVR能够有效处理高维数据,通过核函数将输入空间的样本数据映射到更高维的特征空间中,完成非线性变换。因此,SVR 在处理复杂、高维的小样本数据时具有显著优势。
相比之下,RFR 模型对不同特征变量预测模型的均方根误差RMSE 范围为0.396~0.662,训练集和测试集的决定系数R2c 范围为0.892~0.922、R2p 范围为0.821~0.855。其中,CARS-RFR 模型在训练集中(R2c =0.922 和RMSEC=0.396 7)和测试集中(R2p =0.855,RMSEP=0.532 2)表现相对较好,但与SVR模型相比,其预测精度存在一定差距,这主要是因为本试验样本数量较少,RFR模型训练过程中可能过度适应训练集数据中的噪声,而这些噪声在测试集上并不存在泛化能力。BPNN 模型由于计算量大、训练速度慢,且易陷入局部最小值,导致其训练过程易出现过拟合或欠拟合问题[40],因此性能不如SVR 和RFR 模型。然而,CARS-BPNN 模型的表现仍优于其他BPNN 模型,3 种BPNN 模型R2 均在0.616~0.685 之间,RMSE 处于1.1~1.3 内。尽管BPNN 预测效果相对较差,但具备一定的预测能力,后续可通过算法优化或数据增强进一步提升其性能。
图6展示了经PSO优化后的猕猴桃果实可溶性固形物含量的最优预测模型。粒子群优化算法(PSO)主要用于优化SVR模型中的惩罚系数c和核函数参数y,其中,c控制模型的误差容忍度,影响模型的过拟合和欠拟合;而y 决定核函数的非线性映射能力。通过全局搜索,PSO动态调整这两个参数,提升了模型的预测精度,有效避免陷入局部最优解。与基础SVR模型相比,PSO-SVR模型的预测性能显著提升。在训练集和测试集上的决定系数R2c和R2p 分别提升0.019和0.031,RMSEC和RMSEP分别降低0.047 5 和0.161 1。此结果与Lin 等[41]关于PSO 在支持向量机模型的研究一致,表明PSO 通过全局搜索有效优化了参数,避免了传统方法的局部最优问题。Houssein 等[42]进一步指出,PSO 在处理复杂、高维数据时显著提升了SVR 模型的泛化能力,尤其是在小样本数据集上表现出更好的稳定性和预测精度。因此,PSO-SVR模型在应对非线性和高维数据时表现尤为优异,为猕猴桃SSC 预测提供了更为可靠的解决方案。
图6 不同特征提取算法的PSO 优化SVR 模型预测结果
Fig.6 The prediction results of the PSO-optimized SVR model using different feature extraction algorithms
笔者深入研究了猕猴桃果实可溶性固形物含量(SSC)与光谱反射率之间的对应关系。在500~900 nm波段范围内,针对高光谱数据,采用多种预处理和特征提取方法,并结合4 种机器学习模型。为进一步提升模型的预测精度和泛化能力,利用粒子群优化(PSO)算法对最优基础预测模型进行参数优化,最终建立了猕猴桃SSC预测的最优方案。
本研究在严格控制的实验室暗箱环境中,使用高光谱成像技术对猕猴桃果实进行图像拍摄,并对原始光谱图像进行白板校正,利用ENVI软件中的ROI提取功能提取有效光谱数据。然后对有效光谱数据分别采用MSC、SG、SG-MSC、SG-SNV 等4 种方法进行预处理。通过比较不同光谱预处理效果后,发现MSC处理后的光谱曲线较原始光谱曲线更为紧凑,能有效去除光谱噪声,增强光谱特征之间的相关性。进一步利用PLSR 模型对比分析4 种预处理方法,发现MSC处理在建模效果上优于其他3种方法,其R2c =0.695,RMSEC=0.9254;R2p =0.713,RMSEP=0.8954。这说明经过MSC 处理后,光谱数据的信噪比明显提升,即信号(果实SSC 相关光谱特征)相对于噪声(如散射和仪器噪声引起的随机波动)的比例增大,与刘美辰等[43]的研究结果一致,MSC预处理能够有效去除噪声,并增强数据的一致性,使不同样本之间的光谱数据在形状和趋势上更为接近,有助于更容易地识别和提取与果实品质相关的特征信息,为后续的特征提取和模型构建提供可靠的数据基础。
在建模过程中,由于共线性问题较严重且高光谱数据冗余信息较多,可能导致建模效果不佳,因此需进行特征波长提取。经过MSC光谱预处理后,采用CARS、SPA和RF等3种特征波段提取方法,分别获取了28、30 和21 个特征点。波段位置数据显示,猕猴桃果实可溶性固形物含量的光谱敏感区间主要位于750~900 nm 之间,集中在740~800 nm 范围内。这与李浩等[44]的研究结果相符,经过CARS 筛选波长后,输入特征数量明显减少,特征点间的相关性也得到增强。通过对比特征提取前后的PLSR模型,R2表现出显著提升,RMSE明显降低。这3种特征波段提取方法均有效地简化了模型结构,显著提高了预测模型的准确性和效率。
笔者构建了4个用于预测猕猴桃果实可溶性固形物含量的机器学习模型,包括PLSR、SVR、RFR、BPNN。模型输入为光谱特征波段,输出为SSC 预测值。通过比较这4 个模型的R2 和RMSE 发现,SVR 预测性能最佳,具有更好的拟合效果,预测结果的偏离程度和误差更小。此外,利用CARS 方法提取的特征波段建模效果最优,不仅提高了模型的预测速度和精度,同时提取的波段数量较少。最终确定MSC-CARS-SVR 为最优模型,其训练集和测试集的决定系数分别为R2c =0.930,R2p=0.882;均方根误差分别为RMSEC=0.387 7,RMSEP=0.526 0。进一步利用粒子群优化算法(PSO)对SVR参数进行优化后,模型性能显著提升,在训练集和测试集上的决定系数R2c 和R2p 分别提升0.019和0.031,RMSEC和RMSEP分别降低0.047 5和0.161 1。PSO通过全局搜索和信息交换机制有效避免陷入局部最优解,显著提高了SVR 模型在小样本和高维光谱数据中的预测精度和泛化能力,展现出在小样本条件下的优越性能。与董金磊等[45]利用高光谱技术结合SPA算法和BPNN 模型预测猕猴桃果实SSC 的结果相比,本研究的训练集相关系数R2c 提高了0.019,均方根误差RMSEC 减少了0.554 8;说明采用各环节的最优策略组合模型能够更好地预测猕猴桃SSC。刘文政等[46]的研究也表明,SVR 模型在预测葡萄中的总酚和单宁含量时,预测性能优于CNN 和PLSR 模型,进一步证实了SVR在处理非线性关系和噪声数据时的优势。
相比之下,BPNN 模型虽然具有较强的非线性解释能力,但在本研究中BPNN模型预测效果最差,其中MSC-CARS-BPNN 的测试集R2p =0.633,RMSEP=1.230 8。这可能是由于BPNN 容易在训练过程中过度学习数据细节,导致过拟合,从而在新数据上表现出较差的泛化能力[47]。尽管BPNN能够在一定程度上缓解低估和高估现象,但其表现受制于模型结构、测定时期和数据特性。罗浪琴等[48]利用BP神经和SVR 结合近红外光谱技术预测核桃仁可溶性蛋白质含量的研究结果与本研究不一致,其原因可能在于数据预处理方法和模型选择的差异,说明特征提取和模型优化在不同研究中的预测性能具有关键影响。
目前,本研究在建模数据方面主要关注猕猴桃单一品种和单一品质指标的预测。随着实际农业生产对不同成熟期、不同品种以及不同果园预测需求的增加,本研究方法的适用性仍需进一步验证和优化。未来研究将扩展试验和建模分析范围,重点关注不同成熟度果实以及多品质指标,以期实现更全面、准确的水果内部品质指标预测,推动水果品质检测与分级技术的持续改进。
笔者通过针对猕猴桃果实SSC 的快速无损检测,建立了一套基于高光谱技术的数据预处理、特征波段提取及机器学习预测的最优组合方案。结果表明,MSC-CARS-SVR模型表现最佳。通过粒子群优化(PSO)算法优化SVR 模型参数,其测试集的决定系数R2p 为0.913,均方根误差RMSEP 为0.364 9,表明优化后的SVR模型能够显著提升预测精度,有效地预测猕猴桃果实的内部品质指标。该研究为农产品无损品质检测提供了科学依据,并为猕猴桃果实品质分级的精细化、智能化管理提供了便捷高效的技术手段。
[1] 刘笑宏,赵玲玲,牟红梅,唐美玲,慈志娟,肖慧琳,苏佳明.猕猴桃采后保鲜技术研究进展[J]. 保鲜与加工,2021,21(11):121-128.LIU Xiaohong,ZHAO Lingling,MU Hongmei,TANG Meiling,CIZhijuan,XIAO Huilin,SU Jiaming. Research progress on preservation technology for postharvest kiwifruit[J]. Storage and Process,2021,21(11):121-128.
[2] MA T,XIA Y,INAGAKIT,TSUCHIKAWA S.Non-destructive and fast method of mapping the distribution of the soluble solids content and pH in kiwifruit using object rotation near-infrared hyperspectral imaging approach[J]. Postharvest Biology and Technology,2021,174:111440.
[3] ESCRIBANO S,BIASIW V,LERUD R,SLAUGHTER D C,MITCHAM E J. Non-destructive prediction of soluble solids and dry matter content using NIR spectroscopy and its relationship with sensory quality in sweet cherries[J].Postharvest Biology and Technology,2017,128:112-120.
[4] LIL,PENG Y K,YANG C,LIYY.Optical sensing system for detection of the internal and external quality attributes of apples[J].Postharvest Biology and Technology,2020,162:111101.
[5] LIJ L,SUN D W,CHENG J H.Recent advances in nondestructive analytical techniques for determining the total soluble solids in fruits:A review[J]. Comprehensive Reviews in Food Science and Food Safety,2016,15(5):897-911.
[6] 孙静涛,罗一甲,史学伟,马本学,王文霞,董娟.葡萄品质无损检测技术的研究进展[J].光谱学与光谱分析,2020,40(9):2713-2720.SUN Jingtao,LUO Yijia,SHIXuewei,MA Benxue,WANG Wenxia,DONG Juan. Research progress on non-destructive detection technology for grape quality[J]. Spectroscopy and Spectral Analysis,2020,40(9):2713-2720.
[7] TIAN P,MENG Q H,WU Z F,LIN J J,HUANG X,ZHU H,ZHOU X L,QIU Z Q,HUANG Y Q,LIY. Detection of mango soluble solid content using hyperspectral imaging technology[J].Infrared Physics&Technology,2023,129:104576.
[8] SHAO Y Y,JIS H,XUAN G T,WANG K L,XU L Q,SHAO J.Soluble solids content monitoring and shelf life analysis of winter jujube at different maturity stages by Vis-NIR hyperspectral imaging[J]. Postharvest Biology and Technology,2024,210:112773.
[9] 林娇娇,蒙庆华,吴哲锋,常洪娟,倪淳宇,邱邹全,李华荣,黄玉清.基于近红外高光谱技术的杧果可溶性固形物含量无损检测[J].果树学报,2024,41(1):122-132.LIN Jiaojiao,MENG Qinghua,WU Zhefeng,CHANG Hongjuan,NIChunyu,QIU Zouquan,LIHuarong,HUANG Yuqing.Fruit soluble solids content non-destructive detection based on visible/near infrared hyperspectral imaging in mango[J]. Journal of Fruit Science,2024,41(1):122-132.
[10] BHARGAVA A,SACHDEVA A,SHARMA K,ALSHARIF M H,UTHANSAKUL P,UTHANSAKUL M.Hyperspectral imaging and its applications:A review[J]. Heliyon,2024,10(12):e33208.
[11] 孙嘉豪,张伟,施鉴芩,李艳坤.光谱数据预处理策略选择及应用[J].计量学报,2023,44(8):1284-1292.SUN Jiahao,ZHANG Wei,SHIJianqin,LIYankun. Selection and application of spectral data preprocessing strategy[J]. Acta Metrologica Sinica,2023,44(8):1284-1292.
[12] 鲍浩,张艳.基于改进哈里斯鹰优化算法的光谱特征波段选择模型研究[J].光谱学与光谱分析,2024,44(1):148-157.BAO Hao,ZHANG Yan. Research on spectral feature band selection model based on improved Harris hawk optimization algorithm[J]. Spectroscopy and Spectral Analysis,2024,44(1):148-157.
[13] 浦育歌.基于可见/近红外光谱的苹果霉心病与可溶性固形物在线检测方法研究[D].杨凌:西北农林科技大学,2023.PU Yuge.Research on online detection methods for apple modly core disease and soluble solids based on visible/near-infrared spectroscopy[D].Yangling:Northwest A&F University,2023.
[14] PRAJAPATIA,DEHAL A,KUMAR A R. Microplastics in soils and sediments:A review of characterization,quantitation,and ecological risk assessment[J]. Water,Air,& Soil Pollution,2024,235(3):189.
[15] ÖZGENÇ E. Advanced analytical techniques for assessing and detecting microplastic pollution in water and wastewater systems[J]. Environmental Quality Management,2024,34(1):22217.
[16] LIS Y,SONG Q M,LIU Y J,ZENG T H,LIU S Y,JIE D F,WEIX.Hyperspectral imaging-based detection of soluble solids content of loquat from a small sample[J]. Postharvest Biology and Technology,2023,204:112454.
[17] 高升,徐建华.高光谱成像的红提总酸与硬度的预测及其分布可视化[J].食品科学,2023,44(2):327-336.GAO Sheng,XU Jianhua. Hyperspectral imaging for prediction and distribution visualization of total acidity and hardness of red globe grapes[J].Food Science,2023,44(2):327-336.
[18] 霍迎秋,张晨,李宇豪,智文涛,张炯,刘景玲.高光谱图像结合机器学习方法无损检测猕猴桃[J].中国农机化学报,2019,40(4):71-77.HUO Yingqiu,ZHANG Chen,LIYuhao,ZHIWentao,ZHANG Jiong,LIU Jingling. Nondestructive detection for kiwifruit based on the hyperspectral technology and machine learning[J].Journal of Chinese Agricultural Mechanization,2019,40(4):71-77.
[19] 李玉阔,林苗苗,宋哲,詹栩,李晓晗,齐秀娟.中国不同地区中猕2 号猕猴桃果实品质评价体系的建立[J]. 果树学报,2024,41(7):1368-1377.LIYukuo,LIN Miaomiao,SONG Zhe,ZHAN Xu,LIXiaohan,QIXiujuan. Establishment of comprehensive evaluation system for fruit quality of Zhongmi No. 2 kiwifruit from different regions of China[J]. Journal of Fruit Science,2024,41(7):1368-1377.
[20] 杨涵,陈谦,王宝刚,李文生,李文志,王炳策,钱建平.利用高光谱技术预测采前猕猴桃干物质含量的可行性试验[J].农业工程学报,2022,38(13):133-140.YANG Han,CHEN Qian,WANG Baogang,LIWensheng,LIWenzhi,WANG Bingce,QIAN Jianping. Feasibility of estimating the dry matter content of kiwifruits before being harvested using hyperspectral technology[J]. Transactions of the Chinese Society of Agricultural Engineering,2022,38(13):133-140.
[21] 郑丽娜.基于高光谱技术的猕猴桃内部品质检测研究[D].雅安:四川农业大学,2019.ZHENG Lina. Study on internal quality detection of kiwifruit based on hyperspectral technology[D].Ya’an:Sichuan Agricultural University,2019.
[22] 沈兵兵,姚星伟,王怀文.基于高光谱技术的花椰菜农药残留检测[J].包装工程,2022,43(19):173-179.SHEN Bingbing,YAO Xingwei,WANG Huaiwen. Detection of pesticide residues in cauliflower based on hyperspectral technology[J].Packaging Engineering,2022,43(19):173-179.
[23] 王迪,冯伟华,郭军伟,王锐,刘惠民,宗国浩,刘绍锋,王永胜,赵乐.基于Savitzky-Golay 平滑插值的烟草近红外光谱模型转移[J].烟草科技,2022,55(8):41-48.WANG Di,FENG Weihua,GUO Junwei,WANG Rui,LIU Huimin,ZONG Guohao,LIU Shaofeng,WANG Yongsheng,ZHAO Le. Tobacco near infrared spectral model transfer based on Savitzky-Golay smooth interpolation[J]. Tobacco Science &Technology,2022,55(8):41-48.
[24] 刘昊灵,张仲雄,陈昂,浦育歌,赵娟,胡瑾.融合光谱形态特征的苹果霉心病检测方法[J]. 农业工程学报,2023,39(1):162-170.LIU Haoling,ZHANG Zhongxiong,CHEN Ang,PU Yuge,ZHAO Juan,HU Jin. Detection method for apple moldy cores based on spectral shape features[J]. Transactions of the Chinese Society of Agricultural Engineering,2023,39(1):162-170.
[25] 李庆旭,王巧华,马美湖,肖仕杰,施行.基于可见/近红外光谱和深度学习的早期鸭胚雌雄信息无损检测[J].光谱学与光谱分析,2021,41(6):1800-1805.LIQingxu,WANG Qiaohua,MA Meihu,XIAO Shijie,SHIHang.Non-destructive detection of male and female information of early duck embryos based on visible/near infrared spectroscopy and deep learning[J]. Spectroscopy and Spectral Analysis,2021,41(6):1800-1805.
[26] LIANG L,WEIL L,FANG G G,XU F,DENG Y J,SHEN K Z,TIAN Q W,WU T,ZHU B P. Prediction of holocellulose and lignin content of pulp wood feedstock using near infrared spectroscopy and variable selection[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2020,225:117515.
[27] YUAN R R,LIU G S,HE J G,WAN G L,FAN N Y,LIY,SUN Y R. Classification of Lingwu long jujube internal bruise over time based on visible near-infrared hyperspectral imaging combined with partial least squares-discriminant analysis[J]. Computers and Electronics in Agriculture,2021,182:106043.
[28] ZHU G Z,TIAN C N. Determining sugar content and firmness of‘Fuji’apples by using portable near-infrared spectrometer and diffuse transmittance spectroscopy[J]. Journal of Food Process Engineering,2018,41(6):e12810.
[29] 张楷鑫.基于光谱成像技术的煤岩特征信息检测与识别方法研究[D].西安:西安科技大学,2021.ZHANG Kaixin. Research on detection and recognition of coal and rock feature information based on spectral imaging technology[D]. Xi’an:Xi’an University of Science and Technology,2021.
[30] OLAREWAJU O O,BERTLING I,MAGWAZA L S. Non-destructive evaluation of avocado fruit maturity using near infrared spectroscopy and PLS regression models[J]. Scientia Horticulturae,2016,199:229-236.
[31] 许丽佳,陈铭,王玉超,陈晓燕,雷小龙.高光谱成像的猕猴桃糖度无损检测方法[J].光谱学与光谱分析,2021,41(7):2188-2195.XU Lijia,CHEN Ming,WANG Yuchao,CHEN Xiaoyan,LEIXiaolong. Study on Non-destructive detection method of kiwifruit sugar content based on hyperspectral imaging technology[J].Spectroscopy and Spectral Analysis,2021,41(7):2188-2195.
[32] 汪晓慧.基于高光谱荧光成像技术的水蜜桃品质参数无损检测研究[D].雅安:四川农业大学,2023.WANG Xiaohui. Study on non-destructive detection of peach quality parameters based on hyperspectral fluorescence imaging technology[D].Ya’an:Sichuan Agricultural University,2023.
[33] CHEN D S,ZHANG F,TAN M L,CHAN N W,SHIJ C,LIU C J,WANG W W. Improved Na+ estimation from hyperspectral data of saline vegetation by machine learning[J].Computers and Electronics in Agriculture,2022,196:106862.
[34] YE F. Particle swarm optimization-based automatic parameter selection for deep neural networks and its applications in largescale and high-dimensional data[J]. PLoS One,2017,12(12):e0188746.
[35] GAD A G. Particle swarm optimization algorithm and its applications:A systematic review[J]. Archives of Computational Methods in Engineering,2022,29(5):2531-2561.
[36] WEIX,HE J C,YE D P,JIE D F.Navel orange maturity classification by multispectral indexes based on hyperspectral diffuse transmittance imaging[J]. Journal of Food Quality,2017,2017:1023498.
[37] LIX L,WEIY Z,XU J,FENG X P,WU F Y,ZHOU R Q,JIN J J,XU K W,YU X J,HE Y.SSC and pH for sweet assessment and maturity classification of harvested cherry fruit based on NIR hyperspectral imaging technology[J]. Postharvest Biology and Technology,2018,143:112-118.
[38] 郑艺蕾. 基于高光谱和太赫兹光谱的甘薯品质检测方法研究[D].南昌:华东交通大学,2020.ZHENG Yilei.Research on sweet potato quality detection method based on hyperspectral and terahertz spectroscopy[D]. Nanchang:East China Jiaotong University,2020.
[39] 宋相中,熊艳梅,张录达,闵顺耕.分子光谱波长选择值得注意的几个问题[J].光谱学与光谱分析,2016,36(增刊1):181-182.SONG Xiangzhong,XIONG Yanmei,ZHANG Luda,MIN Shungeng. Several notable problems of wavelength selection in molecular spectroscopy area[J].Spectroscopy and Spectral Analysis,2016,36(Suppl.1):181-182.
[40] ZHU N,WANG K,ZHANG S L,ZHAO B,YANG J N,WANG S W.Application of artificial neural networks to predict multiple quality of dry-cured ham based on protein degradation[J]. Food Chemistry,2021,344:128586.
[41] LIN S W,YING K C,CHEN S C,LEE Z J.Particle swarm optimization for parameter determination and feature selection of support vector machines[J]. Expert Systems with Applications,2008,35(4):1817-1824.
[42] HOUSSEIN E H,GAD A G,HUSSAIN K,SUGANTHAN P N.Major advances in particle swarm optimization:Theory,analysis,and application[J]. Swarm and Evolutionary Computation,2021,63:100868.
[43] 刘美辰,薛河儒,刘江平,代荣荣,胡鹏伟,黄清,姜新华.牛奶蛋白质含量的SSA-SVM 高光谱预测模型[J].光谱学与光谱分析,2022,42(5):1601-1606.LIU Meichen,XUE Heru,LIU Jiangping,DAIRongrong,HU Pengwei,HUANG Qing,JIANG Xinhua. Hyperspectral analysis of milk protein content using SVM optimized by sparrow search algorithm[J]. Spectroscopy and Spectral Analysis,2022,42(5):1601-1606.
[44] 李浩,于滈,曹永研,郝子源,杨玮,李民赞.利用CARS-CNN模型的土壤有机质含量高光谱预测[J].光谱学与光谱分析,2024,44(8):2303-2309.LIHao,YU Hao,CAO Yongyan,HAO Ziyuan,YANG Wei,LIMinzan. Hyperspectral prediction of soil organic matter content using CARS- CNN modelling[J]. Spectroscopy and Spectral Analysis,2024,44(8):2303-2309.
[45] 董金磊,郭文川.采后猕猴桃可溶性固形物含量的高光谱无损检测[J].食品科学,2015,36(16):101-106.DONG Jinlei,GUO Wenchuan.Nondestructive detection of soluble solid content of postharvest kiwifruits based on hyperspectral imaging technology[J].Food Science,2015,36(16):101-106.
[46] 刘文政,周雪健,平凤娇,苏媛,鞠延仑,房玉林,杨继红.基于可见-近红外光谱的鲜食葡萄成熟品质关键指标检测[J].农业机械学报,2024,55(2):372-383.LIU Wenzheng,ZHOU Xuejian,PING Fengjiao,SU Yuan,JU Yanlun,FANG Yulin,YANG Jihong.Detection of key indicators of ripening quality in table grapes based on visible-near-infrared spectroscopy[J].Transactions of the Chinese Society for Agricultural Machinery,2024,55(2):372-383.
[47] 王丽爱,马昌,周旭东,訾妍,朱新开,郭文善.基于随机森林回归算法的小麦叶片SPAD 值遥感估算[J]. 农业机械学报,2015,46(1):259-265.WANG Liai,MA Chang,ZHOU Xudong,ZIYan,ZHU Xinkai,GUO Wenshan. Estimation of wheat leaf SPAD value using RF algorithmic model and remote sensing data[J]. Transactions of the Chinese Society for Agricultural Machinery,2015,46(1):259-265.
[48] 罗浪琴,王涛,刘国庆,赵文革,张锐,于军,陆斌,陈天财.基于近红外光谱法建立核桃仁可溶性蛋白质含量检测模型[J].果树学报,2023,40(8):1750-1761.LUO Langqin,WANG Tao,LIU Guoqing,ZHAO Wenge,ZHANG Rui,YU Jun,LU Bin,CHEN Tiancai.A model for soluble protein content detection of walnuts based on near infrared spectroscopy[J]. Journal of Fruit Science,2023,40(8):1750-1761.
Prediction of soluble solids contents in kiwifruit based on both hyperspectral imaging technology and machine learning