烟叶原料高维指标信息聚类算法

来源 :湖南师范大学 | 被引量 : 0次 | 上传用户:w232010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因为烟草产品的消费面广、量大、税高,在我国经济中占有重要地位,所以如何有效的给烟叶品质评级,提高烟叶的质量来创收是烟草工业面临的重要问题。烟叶数据具有维度高、计算复杂度大等特点。对烟叶数据的处理主要面临的问题有:一是怎么有效的对海量、高维的烟叶数据进行特征提取;二是如何利用特征提取的数据来提高烟叶原料品质评级的准确率。针对以上问题,本文的工作内容如下:1)针对高维烟叶数据,简单介绍了烟草领域的研究背景,以及降维方法和聚类分析的国内外研究现状。同时对常用的线性降维方法、非线性降维方法和聚类分析算法结合如何处理高维烟叶原料数据这一实际问题,进行了讨论和分析。2)烟叶原料指标信息维数过高,计算量大,非常不不利于聚类。本文针对LLE算法的数据分类性能不好,通过加入平移和缩放变换,提出一种局部线性判别嵌入(LLDE)模型,来对烟叶原料指标信息进行降维。来减少烟叶高维数据降维时的计算量,同时提高烟叶数据降维后数据的可分性能。针对烟叶数据建立模型,通过实验确定了LLDE算法的关键参数k和?的取值,当k取10和?取10的时候对烟叶数据的特征提取效果最好,并且与主成分分析进行对比发现降维后的数据可分性能大大提高。3)在训练样本较少的情况下,运用K-近邻(KNN)、支持向量机(SVM)等方法,对烟叶进行品质分类时会导致分类准确率低而导致难以实现烟叶品质的正确分类。为解决这一问题,使用一种混合K调和聚类方法结合LLDE算法,构建LLDE-K模型来进行烟叶品质评级的分类。使用实际工业生产中的烟叶数据对模型进行测试,与PCA+KNN和ISOMAP+KNN来作比较,LLDE-K模型在识别过程中最高达到了95.2%正确率,而PCA+KNN的最高识别率是94.9%,ISOMAP+KNN的最高识率是94.8%。LLDE-K方法对烟叶各品质的平均识别率有94.96%,而PCA+KNN的是94.30%,ISOMAP+KNN的是94.34%,并且LLDE-K的算法耗时均小于另外两种方法。验证了LLDE-K方法的可行性,这也为烟叶原料高维指标信息的品质分类的研究和分析提供了一种新途径。
其他文献
技术创新是企业发展的动力,为应对市场竞争,企业必须不断地进行创新活动,来保证企业的生存和发展。作为经济增长和发展动力来源的技术创新,直接决定企业竞争力,并且影响整个
还珠楼主的食人蚁母题叙事,一是渲染蛮荒生态系统"丛林法则"的惊心动魄,生命体的大小与数量在资源掠夺中意义重大;二是展示食人蚁族群凶残、合群、贪食、神速传递信息,体现出
澳大利亚是一个典型的移民国家,来自世界各地120多个国家、140多个民族的人们到此定居。因此,澳大利亚人口构成的多元化趋势使其文化发展也呈现出多元化。澳大利亚文化以土著
需求的不确定性是企业经营的最大风险之一,企业经营的本质是管理需求。实践证明越来越多的企业在竞争中引入了金融工具并取得了较好的效果,企业需要不断发展新的营销模式和方
语言是人类社会活动的产物,社会发展的变化也隐藏在语言表达之中。其中,最能灵敏的反映出国民生活与社会心理变化的就属流行语了。因此,流行语也经常被称作反映社会发展变化
设计了一种智能热水器控制系统,将STC89C52做主控制器,外接继电器,LCD液晶显示屏,直流电机,蜂鸣器,机械按键以及一个温度传感器的智能热水器控制系统。经过设计,系统最终实现
新课程标准指出:“学生要以知识和技能为载体,感悟数学思想,积累数学活动经验”。学生感悟数学思想,积累数学经验的关键在于教师创造有利条件,引导学生对数学知识的建构,在这
开发新型高能量密度以及低成本的锂离子电池,是有效应对能源危机和环境挑战的可行路径之一。稳定且可逆的阴离子氧化还原反应可以有效提高电极材料的能量密度。遗憾的是,对阴
薄膜应力的存在是薄膜制备过程中需要认真考虑的普遍问题.本文对溅射硅基铜膜应力受衬底温度的影响进行了讨论.实验中衬底温度分别设定为室温,50℃,100℃,150℃,200℃,250℃.
在数据挖掘领域中,研究的重点之一为异常检测技术。针对数据挖掘中实际采集到的样本数据受众多因素的影响所出现的异常值,本文提出一种新的基于邻居样本分布特征的异常检测算法