基于文本聚类的特征选择算法研究

被引量 : 0次 | 上传用户:flyingmomo1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,我们可以从电子出版物,Email,Web页面获得数目惊人的文档。与此同时,大量的文档也导致了人们搜寻、过滤和管理信息的困难,因此,管理和分析海量文本数据就非常重要了。目前,研究文本聚类技术已经成为文本数据挖掘的一个非常重要的方向。但是为了达到提高识别率的目的,通常会造成原始特征的数量巨大,原始特征可能达到几千维,甚至更高。其中存在着大量的冗余特征,造成维度灾难。同时现有的聚类算法片面强调了效率的提高,忽略了对边界类别模糊样本的处理而导致了聚类结果的正确率不高。本文针对文本聚类面临的维度灾难问题和现有的文本聚类算法进行了分析和研究,主要做了以下工作:首先,总结了现有的特征选择方法和相似度度量,提出一种基于词共现的特征选择方法,提高了文本聚类的正确率,降低了特征选择的冗余度,从而提高聚类算法的整体性能,达到了降维的目的。其次,研究几种比较流行的文本挖掘算法,对这些算法进行了详细的介绍,分析了各自的优缺点,进而提出一种改进算法,针对边界类别模糊点进行了处理,改善了聚类结果。第三,通过选取大量的数据进行了一系列的对比试验,并对实验结果进行了分析,从而证明了改进算法的有效性。最后,对本文所做的工作进行了归纳、总结,并讨论了将来进一步的研究方向。
其他文献
<正>夏秋季节,草丛里,树梢上,从山区到平原,到处充满鸣虫们的欢快歌声。宋代文人欧阳修曾在他的《鸣蝉赋》里,以感慨的口吻写道:"吾尝悲夫万物,莫不好鸣:若乃四时代谢,百鸟嘤
<正>物质的检验与区分是历年各地中考的重要考点。物质的检验是根据物质的特性和特有的实验现象来判断某种物质是否存在;物质的鉴别是根据物质之间的性质差异及在变化中的不
新闻自由是美国宪政的基石,但是美国政府并未放松舆情控制。为此,政府制定法律法规,加强行政管制,实行技术控制,鼓励行业自律。在美国,参与舆情监管的主体具有多元性,既有政
我国是一个文化源远流长的大国,传统文艺丰富多彩。我国绘画传统艺术已经成为了我国历史文化的象征,国画艺术在世界文化艺术平台也享有了一定的美誉。我国国画作品中对形象的刻
<正> 一、引言土坝和堆石坝粘土心墙中的开裂乃与设计人员极为有关的问题。在薄心墙近水面处的张裂尤为危险,因为当水库蓄水时它将导致侵蚀管涌破坏。这种破坏类型的实例,最
我国从90年代末,高等教育实行了大规模的扩招政策,高等教育开始由精英化教育转向了大众化教育,导致了我国高等教育资源的需求越来越高,加剧了高等教育经费总量短缺和高效规模不断
目前提高质量已成为我国高等教育改革发展的核心任务,作为评价质量优劣与否的度量衡,质量标准的建立就显得尤为重要。然而我国当前尚未制定出科学、合理的高等教育质量国家标
随着我国城市化进程的加快,城市规模不断扩大,城市管理问题日益突出,数字城市作为已被实践验证能有效的解决城市管理的诸多问题,得到许多专家学者和城市管理者的关注。云计算的不
人类为了在自然界生存,从而为了适应其最为基础的需求和遮蔽风雨、抵御野兽侵害的要求,因此应运而生的建筑分支。自从其诞生以来便伴随与整个人类社会的发展历程,与每个人的日常
在现代工业生产发展的进程中,工业生产对物位测量的实时性、精度及稳定度提出了越来越高的要求,工业测量现场的测量条件也日趋复杂,传统的物位测量仪器已经无法满足这种需求。导