论文部分内容阅读
中草药产业是中国的一大特色产业,拥有着悠久的历史。同一品种的中草药因其生长的地理环境、气候等各方面因素影响,在药用价值上有着一定的区别。在中草药销售市场上,由于产地的原因,来自不同产地的同种药材的价格也有高有低,这让一些不法商贩因利益驱使在售卖高品质产区的药材时掺入了低品质的药材,导致很多人花了大价钱却没有买到真正道地产区的药材。比如三七这种药材,由于文山特殊的环境,文山当地产的三七的药用价值就比云南其他产地的三七来的高,但市场上很多商贩用外观和文山三七一样的其他产地的三七出售给买家,而仅仅通过肉眼是很难对三七的产地进行区分,这样会扰乱药材市场的秩序,对买家也造成了经济损失。这使得正确区分出道地药材成为了中草药市场的迫切需求。 本文的主要研究内容是:研究不同产地的三七不同提取部位数据集的数据预处理方法,如属性选择,实例选择等,在这些预处理方法中寻找出对本文数据最优的方法;对不同产地三七不同提取部位数据集的分类进行研究,寻找用于三七不同提取部位数据分类的最优的分类算法,并对得出的分类算法进行更深入的探索,探索该算法的重要参数对算法分类性能的影响;探索将半监督学习方案应用于本文数据集之后的分类效果。 本文的主要工作包括: 1.实现对来自不同产地的三七不同部位的指纹图谱数据集即主根数据集和剪口数据集进行数据预处理,包括属性选择、实例选择等操作,并探索最优的预处理参数设置,使其能够在分类阶段达到良好的分类效果。 2.将预处理好的数据分别运用几种经典的单分类器算法以及多分类器算法进行分类,并比较分类效果,对实验结果进行讨论以寻找最合适的分类算法。并对实验得出的合适的分类算法进行进一步的研究,探索算法中重要参数的修改对算法分类性能的影响。 3.探索半监督学习对本文数据集的分类效果,对比不同划分标签比例对该学习方案分类性能的影响。