论文部分内容阅读
作为四大水果之一,苹果在人类日常生活中占据了很重要的地位,我国的苹果产量居世界第一,但出口量只占总产量1.46%,阻碍我国鲜果出口的一个重要因素是苹果的分选、检测能力以及检测速度不能满足市场的需求。随着社会科技的迅速发展,评价苹果的品质已经不再局限于通过颜色、大小等外部指标进行评判,人们越来越关注其营养价值和内部品质,先进的水果分选检测能力需要建立在水果内部品质检测之上,而水果的内部品质由其内部的糖分、含水率等多种理化指标来决定。因此寻求一种检测苹果糖度、硬度、含水率等内部品质的方法对苹果的分级销售和出口具有重大意义。目前大量研究已证明介电特征和水果的内部指标具有非常紧密的关系,而介电特征的测量可以在无损的情况下完成,并依据介电特征推断苹果的理化特征。本研究的主要内容如下:(1)构建基于随机森林的苹果内部品质分类模型。在随机森林分类器的工作原理和基础上,分析了其主要参数的选取和功能。本实验中介电特征有108种,理化特征标签有8种,将理化特征均分为5个等级,共8×5个标签信息。将500个苹果均分成10个子集,将10个子集中的一个作为测试集,而其余的9个作为训练集,采用十折交叉验证的方法训练出多棵决策树构成随机森林。训练结果表明随机森林分类器能够有效地处理苹果内部品质多标签分类问题,且森林规模越大,分类准确率越高,使用信息增益目标函数的随机森林与其他随机森林相比具有较好分类性能。与SVM算法进行对比,随机森林有较好的分类准确性。(2)选取随机森林的输出类别。不同于传统的决策树方法,本实验对待随机森林作为一个整体,使融合信息单独包含在每个叶子节点,每个叶节点对应一个苹果,将苹果用理化特征标注标签并预测。在类别选取时,采用TF-IDF算法传回随机森林的输出类别。实验结果表明,基于TF-IDF方法传回的随机森林输出类别可以将介电特征和相关的理化特征有效关联。(3)对随机森林的输出类别排序。本研究中苹果理化特征中的8个指标分别被预分为5个等级。由于随机森林的每棵决策树都是独立的,在选取输出类别时计算标注苹果的标签概率后,对输出类别的个数进行排序,系统地分配苹果最佳标签标记苹果的理化特征。本实验中,使用Rank SVM算法进行排序,将3种框架模型应用于Rank SVM中,分别是f(ci)=ci,f(ci)=ci2以及f(ci)为本研究中提出的系统选取f(ci)的框架模型。实验结果表明,f(ci)通过系统的选取对苹果品质分类效果较好,在分类预测中标签级别分布较为一致,均方根误差为0.51。