基于近邻传播和凝聚层次的文本聚类方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:maigcy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,网络信息成爆炸式增长。如何快速、准确的从这些海量数据中获得有用的信息成为了人们关注的焦点。作为处理和组织大量文本数据的关键技术,文本聚类可以在很大程度上解决信息杂乱和信息爆炸所带来的问题,而且它作为信息过滤、信息检索、文本数据库、数字化图书馆等领域的技术基础,有着广阔的应用前景。近邻传播聚类算法是最近提出的一个新的聚类方法,具有迭代速度快,聚类效果好等优点,但是将该方法用于中文文本聚类上的研究还不多见。本文将近邻传播聚类算法引入到文本聚类领域,并在此基础上进行改进,提出了一种基于近邻传播和凝聚层次的文本聚类算法。本文的研究内容主要包括以下几个方面:(1)分析了近邻传播聚类算法在文本聚类上所存在的问题,在此基础上提出了一种通过两次特征选择和结合凝聚层次聚类算法的新方法来改进近邻传播聚类的结果。(2)对基于近邻传播和凝聚层次的文本聚类算法进行改进,提出了一种基于数据划分的增量聚类算法,先将大数据集分成多个小的数据集进行聚类,再对小数据集的聚类结果进行合并,以实现对大规模文本聚类。(3)结合本文提出的算法,设计并实现了新闻实时在线聚类系统,以发现每天的重大新闻和热点事件。本文在多个数据集上将基于近邻传播和凝聚层次的文本聚类算法与K均值聚类,凝聚层次聚类和近邻传播聚类进行了对比实验,实验结果表明,本文提出的方法取得了和近邻传播聚类算法相当的纯度,均在0.9以上,且在F值上均好于其它方法,到达了预期效果。
其他文献
<正>四细菌分类鉴定(一)细菌分类系统一目前育三个比较全面的细菌分类体系。一个是苏联的克拉西里尼科夫著的“细菌和放线菌的鉴定”;第二个是法国的普雷沃(Prevot)著的“细
目的:观察线索诱发海洛因渴求相关的特异脑区及针刺足三里穴对这些脑区的影响。方法:14例海洛因依赖者在观看海洛因线索诱发、针刺足三里穴(60次/min,2 min)状态下,运用磁共
本文系统阐述了农民创业培训的意义,分析归纳了目前全国开展农民创业培训的主要做法,指出了存在的一些问题,提出了建立培训保障机制、监管机制和评价机制等方面的有关对策。
美国作家福克纳一生都在不断地对小说的形式和技巧进行创新和改革 ,一往无前地拓展小说表现的新领域 ,对现代小说的发展做出了突出的贡献和创造。这些都可以在他独特的叙事艺
金融衍生产品是在传统金融产品的基础上衍生出来的金融工具,具有比标的资产更高的期望收益和风险,但投资者往往更关注其收益性而无视它极大的风险,而不能客观地判断它的价值
红豆杉作为我国植物领域的活化石已经被纳入到国家一级保护植物,而且紫杉醇含量高,让红豆杉在抗癌领域得到了广泛的应用。因此红豆杉在近年来得到了广泛的培育,然而传统的培
本研究采用胶晶模板法制备三维有序大孔(3DOM) Cu2O薄膜并对其性能进行表征。采用通过乳液聚合方法制得的粒径在200-600nm的单分散性聚苯乙烯(PS)胶体微球,利用垂直沉积法使微球
集装箱改造房屋是一种新兴的钢结构房屋结构形式,其构建方式将退役的集装箱循环利用,打造出美观多样的建筑立面,大大缩短了建筑工期,同时也顺应了发展节能环保型房屋的新趋势
结合工程概况 ,介绍了冷水机组的选择方法 ,比较了经济寿命周期内冷水机组的能耗费用和初投资 ,阐述了提高冷水机组IPLV值的必要性。
由美国颇有影响力的作家塞林格于1951年完成的作品《麦田里的守望者》是20世纪美国最著名的小说之一。该小说生动形象地展现了作为那个时代美国青少年代表的作品主人公霍尔顿