【摘 要】
:
我们生活在一个信息化的时代,各种信息急剧膨胀,为了有效利用这些信息,数据挖掘和知识发现技术应运而生,并显示出强大的生命力。本文对数据挖掘技术,尤其是文本挖掘和聚类分
论文部分内容阅读
我们生活在一个信息化的时代,各种信息急剧膨胀,为了有效利用这些信息,数据挖掘和知识发现技术应运而生,并显示出强大的生命力。本文对数据挖掘技术,尤其是文本挖掘和聚类分析进行了较为系统地分析和研究,提出了一些改进算法。 聚类分析在数据挖掘研究中占有重要的位置。所谓聚类,就是将物理或抽象对象的集合划分成为由类似的对象组成的多个类的过程。聚类分析依据经原则是使同一类中的对象具有尽可能大的相似性,而不同类中的对象相似性较小。 由于聚类分析的重要性和特殊性,近年来该领域的研究取得了长足的发展,涌现出了许多聚类分析的方法,如基于划分(Partition-Based)的聚类方法、基于模型(Model-Based)的聚类方法等等。 本文首先系统介绍了各种聚类算法,分析了聚类算法的关键技术,然后在原有算法基础上,给出了两种改进算法:一种是对自组织特征映射(Self-Organizing feature Maps,SOM)算法的改进,通过对SOM算法中的权值初始化进行了重点分析和讨论,针对权值随机初始化,其网络模型训练时间长的缺点,提出了从待聚类的数据集中找出k个有代表性的点对SOM网络权值进行初始化。改进后的SOM算法减小了网络的训练时间。另一种是提出了一种聚类组合算法,针对K-means算法初始聚类中心选取不当对聚类结果影响较大的问题,提出了一种把自组织特征映射和K-means算法相结合的方法,先用SOM算法对数据进行粗略的聚类,然后用SOM的连接权值对K-means算法的初始聚类中心进行初始化,此聚类组合算法提高了聚类效率。 最后设计了一个文本聚类系统,并用Reuters-21578中的数据和Web数据进行实验,验证了此改进算法。
其他文献
目的系统评价罗红霉素辅助治疗支气管哮喘的有效性。方法 计算机检索Pub Med、Cochrane图书馆、中国期刊全文数据库、万方数据库、中文科技期刊数据库,检索时限为1987~2015年
峨眉山作为世界自然和文化双遗产地,在多年的旅游开发中其文化景观的利用较为充分,而自然景观的利用则较为不足。本文针对峨眉山丰富的自然生态旅游资源,利用生态旅游开发管
随着社会的发展,人们生活水平的不断提高和医学模式向生理、心理等方面的转变,人们不仅开始追求医疗内部环境的优越性,更注重了医院外部环境的愉悦舒适。由此,引出关于弋矶山
近年来,中专生源素质急剧滑坡,而现代企业对从业人员职业道德的要求却越来越高。中专学校面临着入学生源素质差,而用人单位对毕业生职业道德要求高的难题。因此,中专学校在加强学
胃食管反流病(gastroesophageal reflux disease,GERD)是指胃、十二指肠内容物反流到食管引起食管内、外的一系列临床表现。是多因素促成的上胃肠道动力障碍、与酸相关的慢性
中学生正处于性成熟的关键时期。当代中学生的性成熟提前,而社会成熟相对滞后,其性生理与性心理、性伦理的矛盾日益突出。同时,随着我国的对外开放,西方消极的性文化、性观念也涌
重庆市电力公司是国有大型企业,主要经营与电力相关的各种产业,担负着为重庆地区供电的重要任务。随着国际国内环境的变化和重庆经济的快速发展,人们对地区电网的安全稳定性和电
国际疾病分类(ICD)中一个具有多功能、多层次、与健康问题有关的国际上共同使用的疾病分类标准。它包括有广泛的内容,自从20世纪50年代WHO(世界卫生组织)开始接管修订、完善
背景和目的 餐后远端食管过度酸暴露及其相关反流症状是胃食管反流病(gastroesophageal reflux disease,GERD)最主要的临床表现。目前,一过性下食管括约肌松弛(transient lo
前言 紫菜属于红藻类(Rhodophyta),红毛菜目(Bangiales),红毛菜科(Bangiaceae),紫菜属(Porphyra)。紫菜多糖(PP)是紫菜的重要组成成分,研究表明具有多种生物学功能,如抗凝血、降血脂、