一种基于主题的Web文本聚类算法

来源 :成都大学学报:自然科学版 | 被引量 : 0次 | 上传用户:rserrrrr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
设计了一种基于主题的Web文本聚类方法(HTBC):首先根据文本的标题和正文提取文本的主题词向量,然后通过训练文本集生成词聚类,并将每个主题词向量归类到其应属的词类,再将同属于一个词类的主题词向量对应的文本归并到用对应词类的名字代表的类,从而达到聚类的目的.算法分四个步骤:预处理、建立主题向量、生成词聚类和主题聚类.同时,对HTBC与STC、AHC、KMC算法从聚类的准确率和召回率上做了比较,实验结果表明,HTBC算法的准确率较STC、AHC和KMC算法要好.
其他文献
阐述了分形理论中迭代函数系统(IFS)的基本原理.根据线性IFS随机迭代算法,利用Matlab软件编程,简单而逼真地模拟了自然景物中的树叶、树与山.
20世纪末,在“健康第一”思想指导下,我国学校体育整体改革全面启动,剖析民族传统教育理念,反省我国学校体育与健康教育的传统文化底蕴,吸取精华,析出传统教育理念对学校体育改革的