基于二次迁移模型的小样本茶树病害识别

来源 :江苏农业科学 | 被引量 : 0次 | 上传用户:laoyoutiao66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:为提高小样本茶树病害识别的准确率,提出一种基于2次迁移模型的卷积神经网络茶树病害图像识别方法。首先将ResNet模型在ImageNet数据集上进行预训练,然后将预训练模型對植物病害数据集进行参数迁移训练,最后将迁移学习训练后的模型对扩充后的小样本茶树病害数据集进行2次参数迁移训练。结果表明,扩充后的数据集识别准确率较原数据集提高2.32%,再进行2次迁移学习后识别准确率又提高6.38%。通过调整训练超参数,对茶红锈藻病、炭疽病、茶网饼病、圆赤星病、藻斑病等5种茶树病害图像的识别准确率高达96.64%。在对5种茶树病害进行验证时,验证样本识别率与常规深度学习相比由93%提高至98%。2次迁移学习能够有效提高在小样本茶树病害识别下模型的识别能力,对实用化茶树病害识别具有重要的参考意义。
   关键词:茶树病害;图像识别;小样本;二次迁移模型;残差网络
  茶叶具有重要的食用和经济价值,但茶树病害严重影响其品质和产量[1-2]。以叶部病害为例,常见的茶树病害有茶红锈藻病、炭疽病、茶网饼病等几十种,及时准确地识别茶树病害能够帮助管理人员采取相应的措施减少病害对茶树生长造成的影响。目前茶树病害的识别主要依赖农间管理者长期的经验认知,因此研究快速有效识别茶树病害方法具有重要的研究意义。随着人工智能技术的普及,图像识别技术能帮助农间管理者对茶树病害进行在线检测[3-5]。方晨晨等通过改进深度残差网络对番茄病害图像进行识别[6];王秀清等提出一种基于自适应布谷鸟与反向传播协同搜索的病害识别算法以提高番茄病害识别准确率[7];贾少鹏等提出卷积神经网络(convolutional neural networks,简称CNN)与胶囊网络的组合模型对农作物病虫害进行训练识别[8]。在上述研究中,均通过更改神经网络结构提高病害识别的准确度,但在实际运用中,往往存在样本采集少、图像质量低等问题。当样本数据较少时,很难通过改进算法来提高识别准确率。因此,孙云云等通过对病害图像进行一系列预处理,提高了识别效果[9]。任胜男等采用one-shot学习方式对小样本植物病害进行识别[10]。上述研究工作,在一定程度上可以解决训练样本较少的问题,但由于样本数量较少,训练过程不透明,容易导致过拟合。为实现小样本病害识别,同时避免过拟合问题,苏婷婷等利用卷积神经网络并结合迁移学习提高了花生叶部病害的准确率[11];许景辉等分别在VGG-16和Inceptive-v3模型下对ImageNet数据集进行迁移学习,增加了病害的识别准确率[12-13]。上述研究采用迁移学习方式对小样本数据集进行识别,虽然在一定程度上能防止过拟合情况发生,在源域与目标域相似性上存在一定差距,但迁移学习训练方式还需提高。本研究首先对ImageNet数据集进行预训练,然后更改预训练模型的全连接层对植物病害数据集进行参数迁移学习训练,接着更改第1次迁移学习训练后模型的全连接层对处理后的茶树病害数据集进行第2次参数迁移学习。在利用植物病害公共数据集与茶树病害数据集特征相似对茶叶病害进行卷积计算的基础上使用2次迁移学习训练对茶树病害进行识别,达到小样本情况下提高病害识别率的目的。1 材料与方法
  1.1 试验材料
  图像数据由ImageNet数据集、植物病害数据集、茶树病害数据集3个部分组成。ImageNet数据集是包含14 197 122幅图像的大型公共数据集。植物病害数据集由Plant-Village公共数据集、中国科学院合肥智能机械研究所智能认知研究组构建的农业病害研究图库IDADP以及中国科学院合肥智能机械研究所提供的黄瓜水稻数据集3个部分组成,共计39类农作物病害,95 239张图片。茶树病害图像数据由安徽省农业科学院农业经济与信息研究所采集。通过单反相机采集以叶片、天空为背景的田间茶树病害图像,同时通过图像处理软件对图像进行预处理。经专业技术人员确认,筛选茶树病害叶片样本图片共计1 024张。
  卷积神经网络虽然在图像识别上具有较好的能力,但使用卷积神经网络对复杂背景下的茶叶病害识别需要进行大量计算,这样不仅增大卷积计算时间而且易出现欠拟合问题,导致识别准确率降低[9]。因此,针对此类问题,需要对小样本数据集进行处理。本研究先将原茶树病害数据集进行裁剪,然后对裁剪后的图片采用几何变换、随机亮度变化、随机对比度变化、高斯模糊等处理方式,将训练图像扩充至15 774张,并利用归一化方式将扩充的数据集图像属性调整为256像素*256像素。由于epoch训练轮次较多,因此按照8 ∶ 1 ∶ 1[随机挑选训练集(train) ∶ 训练过程中的测试集(val) ∶ 训练模型结束后用于评价模型结果的测试集(test)]比例进行训练,保证测试的准确度和可信度。分布情况如表1所示,图像样例如图1所示。
  1.2 试验方法
  基于ResNet网络模型,采用二次迁移学习的训练方式并结合Adam优化算法对小样本茶树进行病害识别。图2为基于二次迁移模型的小样本茶树病害分类模型训练过程。
  1.2.1 卷积神经网络模型 卷积神经网络是一种前馈神经网络,由1个或多个卷积层和顶端的全连通层组成,同时包括关联权重和池化层等[14-17]。与其他深度学习结构相比,卷积神经网络在图像和语音识别方面能够取得较好的结果[17]。
  ResNet采用残差网络结构,而不是简单地堆积层数。此种网络结构为卷积神经网络提供了新思路[18-20]。残差网络的核心思想为输出2个连续的卷积层,并且输入时绕到下一层。假设X为输入图像,残差函数为F(x),则F(x) x为卷积后的输出。采用残差函数F(x),将优化目标逼近于零。加深的残差网络比普通叠加的网络模型更容易优化且不会随着网络深度的增加训练错误增多。通过引入增加恒等映射的残差映射,在输出和输入之间增加一个快捷方式连接(Shortcut Connection),可以更容易避免训练时梯度消失的退化问题。   使用ResNet网络模型为代表的ResNet18模型。此种模型能基本满足多数试验环境并具有较好的结果。ResNet18网络结构如图3所示。
  1.2.2 迁移学习 迁移学习是将训练数据集在已经训练好的预训练模型上更改相关层后完成训练。植物病害数据集与茶树病害数据集存在一定的相似性,且茶树病害训练集样本数量较小,训练能力不足,引入迁移学习可以较好地解决样本数量小造成的识别准确率低问题。
  使用二次迁移学习方法对小样本茶树病害进行识别。首先将茶树病害数据集相似的植物病害数据集在ImageNet预训练模型上进行第1次迁移学习。此次迁移学习将新设计的全连接层与原删除全连接层的ResNet网络连接,ImageNet数据集作为源域,植物病害数据集作为目标域。通过此种方式能依据植物病害特征更新训练过程的权重参数,提升预训练模型的泛化能力。然后将迁移学习训练好的植物病害模型对小样本茶树病害数据集进行二次迁移学习训练。此次迁移学习将更改后的植物病害模型的全连接层与茶树病害数据集进行匹配,植物病害数据集作为源域,茶树病害数据集作为目标域。通过此种方法能解决训练样本数量不足的问题,大大提升模型的識别准确率。
  本次迁移学习采用基于参数的方式,源域和目标域共享模型,目标域通过预训练模型进行训练,在训练过程中利用预训练模型中权重及参数可微调网络参数较快实现模型收敛。
  1.2.3 识别模型中的优化算法 Adam是一种一阶优化算法,可以替代传统的随机梯度下降(stochastic gradient descent,简称SGD)算法,能自动迭代更新神经网络权重,加快模型收敛速度[21-22]。与传统的随机梯度下降优化算法不同,Adam算法通过计算梯度的一阶矩估计和二阶矩估计为不同的参数设计独立的自适应性学习率[23]。本算法集适应性梯度算法(AdaGrad)和均方根传播(RMSProp)算法优点于一身,能充分利用梯度的二阶矩均值计算适应性参数。Adam算法使用动量变量和小随机梯度按元素平方的指数加权移动平均变量,并在时间步长中将它们中的每个元素初始化[24]。 下列公式中(1)为动量变量计算公式,(2)为移动平均变量计算公式。
  式中:β1、β2为超参数值,取值范围均为[0,1];vt为时间步t的动量变量;gt为小批量随机梯度;st表示小批量随机梯度按元素平方的指数加权移动平均变量。为消除t较小时,过去各时间步小批量随机梯度权值之和较小的问题,引入偏差修正,对于任意时间步t,将vt除以(1-β),从而使过去各时间步小批量随机梯度权值之和为d1,Adam算法使用以上偏差修正后的变量为v^t和s^t,将模型参数中每个元素的学习率通过元素运算重新调整:
  2 结果与分析
  2.1 试验环境
  训练环境在Windows 10专业版操作系统下,基于Intel(R) Xeon(R)CPU E3-1230 v3@ 3.30 GHz(12 GB运行内存)和 NVIDIA GeForce GTX 1080 Ti GPU的硬件设备上搭建Pytorch深度学习框架,使用Matlab对图像进行裁剪、几何变换、随机亮度变化等操作,利用Python编程语言实现茶树病害识别的训练与测试。批次大小(Batch-size)即每批次训练与测试的图片数根据模型与硬件设备不同设置为32、64、128、160、256、320。学习算法在整个训练数据集中工作次数(epoch)根据Batch-size大小设置为40、80,学习率(Lr)设置为0.001、0.01、0000 1。
  2.2 试验设计
  为探究茶树病害如何获得较好的识别效果,以ResNet18为参照模型,进行3组不同维度的比较。第1组对原数据集和更改数据集进行比较,测试扩充数据集对茶树病害识别的影响。第2组对未迁移、1次迁移、2次迁移等3种模式进行比较,获得ResNet18模型的最佳迁移方式。第3组拟在不同超参数ResNet18模型下训练并进行比较,获得适合的超参数训练环境,采用3组试验进行茶树病害识别,探究提高小样本茶树识别准确率的方法。
  2.3 试验结果与分析
  2.3.1 图像数据对模型的影响 本组试验将原数据集与扩充数据集进行比较,采用ResNet18模型对茶树小样本数据进行直接训练,设置Batch-size为32,学习率为0.001,得到如图4所示的Acc曲线(Model1为ResNet18对原数据集进行训练,Model2为ResNet18对扩充数据集进行训练)。由训练可知原数据集测试准确率为86.40%,扩充数据集测试准确率为88.72%,Model2的识别率明显高于Model1,提升了2.32百分点。通过训练可知,Model2的准确率增长速度比Model1快且总体识别率高。由于茶树数据集样本小且未采取迁移学习的训练方式,因此本次测试准确率较低。结果表明,将数据集进行裁剪,提取部分病害图斑并作处理能有效提高识别率。
  2.3.2 基于ResNet18的迁移学习训练结果及分析 根据上述2组模型的训练结果,本组采用4种模式对茶树小样本进行训练。Model3使用植物病害数据集进行第1次迁移学习,迁移方式为更改全连接层并对最后一层进行训练。Model4使用植物病害数据集进行第1次迁移学习,迁移方式为更改全连接层并对全部层进行重新训练。Model5使用ImageNet数据集预训练模型对植物病害数据集进行第1次迁移训练,然后在小样本茶树病害数据集上进行第2次迁移训练,迁移方式为更改全连接层并对最后一层进行训练。Model6使用ImageNet数据集预训练模型对植物病害数据集进行第1次迁移训练,然后在小样本茶树病害数据集上进行第2次迁移训练,迁移方式为更改全连接层并对全部层进行重新训练。4种模型训练的精度(Accuracy)曲线如图5所示。本组训练设置Batch-size为32,学习率为0.001,茶树病害识别准确率如表2所示。    Model3、Model4与Model5、Model6进行比较可得出,进行ImageNet预训练模型迁移和植物病害数据集预训练2次迁移比1次迁移识别准确率提高约4%。相比迁移学习方式,更改全连接层并对最后一层进行训练比更改全连接层并训练全部层的方式识别准确率更高。
  2.3.3 基于迁移学习的超参数训练结果及分析 由上述试验可知,ResNet18模型下Model5的识别率最高。本次训练通过更改Model5的Batch-size和Lr的方式获得适合的超参数训练环境。超参数训练结果如表3所示,不同超参数下Loss曲线如图6所示。
   由图6可知,Batch-size越大,拟合速度越快,精确度越高,但当Batch-size达到256以后,再增大批次大小,精确度将不再提高。在迁移学习中,学习率太大可能导致参数更新过快,不能较好地通过权重信息进行训练。在Batch-size为160、256时,改变学习率0.001、0.01、0.000 1,结果表明Batch-size设置为256,学习率设置为0.001模式下,茶树病害识别准确率最高。
  2.4 模型验证
  由上述訓练结果可知,Model5-5模型识别率最高。为验证方法的可行性,每类病害按照 10 ∶ 1(train ∶ test)比例从未训练数据集中随机挑选100张图片进行模型验证。Model1中验证集识别准确率为93%,Model5-5中验证集识别准确率为98%。表4为Model1和Model5-5下的查准率和查全率。
  3 讨论与结论
  3.1 讨论
  3.1.1 模型训练方式的选择 本研究在残差网络模型ResNet18的基础上,调整了全连接层结构。在第1次迁移学习时,首先用植物病害数据集的39种分类取代原ImageNet数据集的1 000种分类,对这39种不同植物不同病斑进行特征训练。然后将植物病害数据集的39种分类更改为茶树病害数据集5种分类,进而对茶树的茶红锈藻病、炭疽病、茶网饼病、圆赤星病、藻斑病等5种病害进行第2次迁移学习训练。利用植物病害公共数据集与茶树病害数据集之间的特征相似性对茶叶病害进行卷积计算,然后结合数据集扩充和超参数更改操作对小样本茶树进行训练。结果表明,本研究方法能有效提高拟合速度且在识别性能上相比未迁移和迁移1次的模型有较大提升。其中测试识别率提高9.24%,精确度达到96.64%;验证识别率提高5%,精确度达到98%。因此,本研究使用基于2次迁移的训练方法,对茶树红锈藻病、炭疽病、茶网饼病等病害识别行之有效。
  3.1.2 超参数在病害训练中的影响 采用不同批次大小和学习率对茶树病害进行训练。结果表明,学习率设为0.01情况下,茶树病害的测试准确率最差。学习率为0.001情况下茶树病害的测试准确率最高。此外,训练批次大小(Batch-size)也会影响测试准确率,在一定范围内Batch-size越大收敛越快,测试准确率越高。因此,在ResNet18模型下合适的超参数可以提高模型的训练精度。
  3.2 结论
  采用植保专家标定的数据作为神经网络的训练样本,选用残差网络ResNet18为训练模型,在扩充数据集及调整适应超参数的基础上运用2次迁移学习方式进行小样本茶树病害的深度学习训练。结果表明,对茶树病害数据集进行扩充后识别准确率优于扩充之前的识别准确率,选用2次迁移学习训练方式的识别准确率明显优于未迁移学习训练方式,合适的超参数也可提高识别准确率。表明本研究建立的基于2次迁移学习的深度学习训练方式可较好地解决图像识别中茶树病害数据样本不足的问题。虽然试验采用了残差网格模型ResNet18,但从原理上看本结果也应该适用其他网络模型。
  参考文献:
  [1]董照锋,李 俊,赵 宇. 商洛茶树病虫种类调查及主要病虫害发生分布[J]. 山西农业大学学报(自然科学版),2018,38(12):33-37.
  [2]刘 威,袁 丁,郭桂义,等. 茶树炭疽病病原鉴定[J]. 南方农业学报,2017,48(3):448-453.
  [3]Zhang Q C,Yang L T,Chen Z K,et al. A survey on deep learning for big data[J]. Information Fusion,2018,42:146-157.
  [4]Rangarajan A K,Purushothaman R,Ramesh A . Tomato crop disease classification using pre-trained deep learning algorithm[J]. Procedia Computer Science,2018,133:1040-1047.
  [5]Sun Y,Jiang Z,Zhang L,et al. SLIC_SVM based leaf diseases saliency map extraction of tea plant[J]. Computers
其他文献
摘要:农地流转是解决农地撂荒、经营分散及农业现代化建设矛盾的根本措施。加快农地流转市场化,建立规范的农地流转市场具有重要意义。然而,当前土地流转存在零租金现象,抑制了农地流转市场发育。基于此,以重庆市酉阳县为例,利用171份农户调研数据,从地块尺度研究农户转入耕地补偿现状及影响因素。结果表明:农户转入耕地以零租金为主,租金转入耕地比重非常低;尽管农地流转方式极不规范,但租金转入相对零租金转入正式,
相信你自己,你就是自己的超级英雄,哪怕前方荆棘迷茫,你也会手握长茅划破黑暗,让诗和梦想绽放出绚烂的七色光。  自以为是极其喜欢雨天的。记得年幼時,每到雨天就拿一把小木椅,背靠着奶奶家的老槐树坐下,细嫩的小手撑着脸颊,听雨拍打在地面上的声音,吧嗒吧嗒,一下一下滴进了心里最柔软的地方。以至于从那时起,就有了去江南水乡念大学的想法。  事与愿违,当我真的去了江南水乡念大学后,却被她独有的天气K.O了。我
摘要:以不动杆菌(Acinetobacter indicus)JL-1为菌种,使用无机磷液体培养基测定其解磷性能。采用单因素试验与正交试验确定最佳解磷条件:碳源为10.0 g/L蔗糖,2.0 g/L复合氮源(硫酸铵与酵母粉质量浓度比为1 ∶ 1),pH值为7.5,温度为37 ℃,装液量为50 mL/250 mL。在此最优条件下,解磷量在48 h时最高,为61.02 μg/mL,菌落数为2.69×1
摘要:为分析循环水养殖和池塘养殖下加州鲈鱼肉质区别,探索循环水养殖模式优点。采集同龄段、同一饲料喂养的2种养殖模式下的加州鲈鱼,通过测定加州鲈鱼的基础营养成分、肉质相关指标和质构特性(TPA分析)来评价2种养殖模式下鲈鱼肉质,并采用扫描电镜,对2种加州鲈鱼进行观察,分析其微观结构差异。結果显示,循环水养殖加州鲈鱼较池塘养殖比,其粗蛋白含量显著提高(P<0.05),粗脂肪含量显著降低(P<0.05)
奶奶去世的时候,我始终不愿相信,她真的离开了我,那个每个周末都等我回家吃饭的人不在了,不能陪她一起在小区遛弯了,再也听不到她的碎碎念了,我以后再也见不到她了,眼泪一滴一滴,打湿了枕巾。  追悼仪式中午开始,我跟着人群走進悼念厅,听着在念悼词的工作人员刻意夸张的语调,我甚至还可以看到人群前奶奶穿着的蓝色带花纹的衣服……然后送去火化,周围的亲戚号啕大哭,而我呆呆地望着人们……  奶奶其实是因为一次摔倒
摘要:通过食用液相-质谱联用方法研究河南安阳、江苏盐城、贵州贵阳、广东广州、浙江杭州及湖北湘潭等6地菊花啶虫脒的残留降解规律,为菊花病虫害防治以及菊花中的啶虫脒残留分析提供参考。以菊花为试材,建立啶虫脒在菊花上的液相色谱-三重四极杆串联质谱(HPLC-MS/MS)测定方法,并使用该方法研究啶虫脒在菊花上的残留量动态变化和最终残留量。结果表明,以啶虫脒标准溶液的质量浓度为横坐标,峰面积为纵坐标,啶虫
摘要:探究不同物候型小麦品种晚播后产量性状变化及品质差异,并优化栽培播期。在同一播量下晚播,以生殖物候极稳定的优质强筋小麦品种小偃81和生殖物候极不稳定的中筋品种西农1376为材料,研究晚播后产量性状及品质指标变化,并以基因环境互作分析软件对品质指标进行系统分析。结果表明,播期与抽穗期极显著正相关,西农1376产量与播期及抽穗期极显著负相关,小偃81产量与播期极显著负相关,西农1376千粒质量与产
摘要:以马铃薯宾杰(Bintje)品种为试验材料,研究在马铃薯基础培养基中添加不同外源激素及添加物对马铃薯组培苗生长的影响。结果表明,最适于组培苗增殖的激素配比为2.00 mg/L 6-BA 0.01 mg/L NAA,最适于其结薯和生根的激素配比为2.00 mg/L 6-BA 1.00 mg/L NAA。在培养基中添加马铃薯比添加香蕉更有利于马铃薯组培苗叶片的生长,最适添加浓度为100 g/L;
摘要:以4种植物生长延缓剂或生长抑制剂为材料,采用种子包衣的方式,分析种用化控剂对不同品种玉米种子萌发及幼苗生长特性的影响。结果表明,种用化控剂明显延缓玉米幼苗地上部的生长发育,明显降低幼苗干质量、株高、胚芽鞘长度,其中对后2种指标的影响达显著水平(P<0.05);可显著促进根系的生长与发育,提高根表面积和根长度,进而提高根冠比;品种之间对不同药剂的反应存在一定差异。因此,采用化控剂包衣的方式有可
摘要:鬼伞是一类菌柄能在短时间内快速伸长并且伞盖易自溶形成墨汁的蘑菇,菌柄在伸长过程中细胞壁以伸长生长为主,细胞壁组分β-1,3-葡聚糖发生重构修饰,GH72家族的β-1,3-葡聚糖转移酶能够将较低聚合度的寡糖转化生成更高聚合度的糖链。β-1,3-葡聚糖转移酶可能参与鬼伞菌柄细胞壁中β-葡聚糖组分的重构修饰。以完成测序并有注释信息的灰盖拟鬼伞(Coprinopsis cinerea)、拟鬼伞(Co