基于语义相似度的文本聚类算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:chen6524
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,人们被淹没在浩瀚如海的信息中。网络带来信息资源,但如何从中挖掘有用的知识成为一个需要研究、解决的问题。在人们日常接触的信息中,80%左右是以文本的形式存在的,因此文本挖掘受到越来越多的关注度,其中,文本聚类在现实生活和工作中得到较多应用,所以文本聚类方法有很大的研究价值。常用的文本聚类方法大多基于文本的向量空间模型表示,这种表示方法带来的问题是空间维度过高、稀疏性强,也没有考虑词语之间的语义信息,导致聚类精确度不高。针对这些问题,本文采用特征项提取和《知网》词汇语义相结合的方法,对文本集进行相似度计算和密度聚类处理。本文还采用蜂群算法来对文本聚类,基本蜂群聚类算法有两个缺陷:一是算法中蜜蜂初始位置的选择属于随机分配,这将导致初始值的设定不合理,而使算法步骤多次执行,降低工作效率;二是算法在执行后期容易陷入局部最优。改进的算法在初始阶段引入最大最小距离算法,使初始值设定合理化、初始点分布均匀;算法执行过程中加入K-均值算法,对蜂群算法搜索过程中每一次得到的聚类中心进行局部更新,获得更优的簇心;这样既加快算法运行步伐,也使算法更优和更具鲁棒性。论文选取复旦大学中文文本语料库中,随机抽取5个类别的500篇文本对算法进行实验,并利用聚类准确率、召回率和F度量对聚类结果进行评价。与基于VSM-的K-均值算法和结合语义改进的K-均值短文本聚类算法相比,在这些指标上都有所提高,结果值在80%左右,达到了文本聚类算法改进的目的,证明了算法的合理有效性。
其他文献
这篇书评对哈贝马斯的《伦历史唯物主义的重建》和克·埃德尔的《以国家为组织形式的社会的产生——关于社会进化的理论》作了评论,认为哈贝马斯等人的理论纲领不是要叙
<正> 当前,日本社会正迎来一个转折时期。我们的社会究竟要朝什么方向转变?就教育问题而言,在高速增长期,教育政策的目
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
<正> 桃金娘系亚热带长年生野生植物,又名“逃年”。其果实呈灯笼状,味鲜甜,并含有丰富的维生素C。近几年来,由于封山造林,闽南一带桃金娘产量大幅度增加,从而为果汁生产工业
目的:通过对鹰嘴豆中3种异黄酮类化合物染料木素、鹰嘴豆芽素A、刺芒柄花素进行乙氧基化结构修饰,研究其降糖活性及协同降糖活性。方法:对上述3种异黄酮类化合物进行乙氧基化
福禄克测试仪器(上海)有限公司于4月17日在重庆隆重举办了福禄克70周年纪念活动暨品睥战略和新品发布会。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
企业经营管理中合理的运用金融投资管理可以有助于企业获得更好的收益,保证企业平稳发展。但是具体操作中容易有多种负面影响的冲击,导致金融投资管理有更高的风险。因此,要
舞蹈作为一门普通大学艺术选修课程,不但有助于满足非舞蹈专业学生对舞蹈的喜爱和追求,也有助于学生艺术细胞的培养和综合素质的提升。但是其教学过程中仍然存在诸多问题。同时
绿色医疗消费是社会发展的必然趋势,是一种逐步形成、不断发展、有益于人类自身健康的新型医疗消费,拥有广阔的市场前景.