论文部分内容阅读
随着社会的快速发展和人民生活水平的日益提高,人们的饮食越来越丰富,相应的人们的饮用酒品种也越来越丰富,曾经一度被当作奢侈品来看待的葡萄酒,现在也越来越多的被平常老百姓接受,而且也越来越多被广泛的消费者喜爱。在中国加入世贸组织(WTO)后,葡萄酒在中国人日常饮酒中占的比重也越来越大,现在不仅仅在国外,在中国,葡萄酒的市场越来越壮大,人们对葡萄酒的需求量也越来越大,各大葡萄酒厂商越来越重视中国市场,尤其是比较知名的葡萄酒品牌在中国的市场占有率也越来越高,为了支持其发展,整个葡萄酒行业都非常重视在酿酒和销售过程中投资研发新技术。而且葡萄酒认证和质量评估尤其是这方面的关键要素。葡萄酒的认证可以防止非法掺假葡萄酒(这主要是保障人体健康),并且可以保证葡萄酒市场的健康有序发展。葡萄酒质量评价往往是认证过程的很重要的一部分,它可以用来改善酿酒工艺(寻找并确定影响力最大的因素),并且对葡萄酒品质分级别,如优质品牌的葡萄酒(用于制定价格)。葡萄酒质量认证一般使用物理,化学和感官测试评估。经常用来描述葡萄酒的物理化学实验测试包括密度,酒精或pH值的测定,而感官测试主要依赖于专家的感官评测,如专业的品酒师等。这里应当强调的是,依赖于人的感官去评测带有很多主观性和不准确性,因此,葡萄酒分级是一项艰巨的任务。随着计算机信息技术的进步,人们现在已经可以收集,存储和处理大量的,甚至是高度复杂的数据集。所有这些数据所持有的有价值的信息,如趋势和模式,它可以用来改善决策和优化成功的机会。本文从葡萄酒的生产过程入手,尝试讨论如何在生产过程中对葡萄酒质量进行分析和预测,由于葡萄酒的生产工艺相对比较复杂,影响质量的因素比较多,这是一个很典型的多特征分析方法,提出可以使用模式识别的方法来解决这个问题。自20世纪60年代以来,模式识别的理论与方法研究及在工程中的实际应用取得了很大的进展。模式识别一般学习过程分为监督和非监督类型两种。监督学习过程也就是说已经提供了一组训练数据(训练集)。在这个学习的过程,生成一个模型,试图满足两个有时相互冲突的目标:尽可能好地执行训练数据,并归纳概况新的数据。无监督学习,没有预先提供训练数据,并试图找出固有的模式,然后可以使用这种模式对新的数据实例进行识别分类。本文提出可以使用这两种模式识别的方法来分析和预测葡萄酒的质量,并且通过实验证明模式识别的有效性。本文实验采用米尼奥大学(University of Minho, Guimar)提供的Wine Quality数据作为实验数据,分别研究KNN算法以及使用KNN结合K-Means算法提高KNN算法速度的模式识别应用。为了解决监督-分类算法(K-Nearest Neighbor,KNN)速度慢的问题,提出可以结合非监督-聚类算法(K-Means)对数据预处理,降低分类算法的运算量,从而提高模式识别速度。并且通过实验并对实验过程中的数据进行分析,进而证明使用模式识别对于葡萄酒质量分析预测是有效的,同时证明KNN结合K-Means算法可以有效提高模式识别速度,最后指出局限性。