基于复杂网络的中文文本分类研究

被引量 : 0次 | 上传用户:wffgwffg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息爆炸式的增长,可以方便用户快速、准确定位所需信息的文本自动分类技术变得越来越重要。传统文本分类中广泛采用的基于向量空间模型的文本表示方法中,由于其假设特征词之间是相互独立的,即忽略了词语间的语义关系,因而容易造成文本语义信息的缺失。此外,汉语是一种表意型语言,较词语的形式,其更注重词语内涵的语义,而且汉语中蕴含着大量词语语义相关关系以及存在上下文依赖现象,这些使得中文所蕴含的语义信息较其他注重形式和结构的语言(如英语)更加丰富,所以基于向量空间的文本表示模型更加难以完整描述中文文本所蕴含的语义信息。为解决上述向量空间模型中文本结构和语义信息的缺失问题。本文将复杂网络理论引入到中文文本分类过程中,将语义学理论与文本表示有效的融合,首先以词语间的词同现关系为基础构建单一文本加权复杂网络来表示中文文本,该文本表示方法除包含特征词本身信息外,还可以体现出特征词之间的语义相关关系及上下文结构信息;然后,为减少计算的复杂度,本文通过复杂网络的小世界特性进行文本特征选择,利用节点综合特性提取反映文本主题的关键词作为文本的特征词,以优化文本网络结构,降低文本网络复杂性;再次,通过引入最大公共子图理论在复杂网络表示文本表示下进行文本相似度计算,以此减少语义流失,并结合KNN文本分类思想构建文本分类模型及相应分类算法;最后,为验证本文提出的基于复杂网络的中文文本分类算法的效果,分别从特征选择算法、文本相似度计算方法、文本分类算法与相应传统方法进行对比实验。实验结果表明将复杂网络引入到中文文本分类过程中是有效、可行的。
其他文献
顾德希先生始终坚持“使学生有效参与语文学习”的思想,与当前新课程改革的理念不谋而合,他的探索实践对当前的语文课程有许多启发意义和实践价值。顾德希的人格魅力感染和影
俗话说,“民以食为天”,作为高等学校后勤工作重点的食堂的重要性就不言而喻了。高校学生正常有序的学习生活,离不开学校后勤管理部门提供的服务和保障。随着大学扩招和学校
李煜和李清照一个是才气横溢的南唐后主,一个是中国古代历史上赫赫有名的才女。共同的"真"与"美"使二李词在数以万计且星光璀璨的词作中脱颖而出,但在意蕴、抒情方式等方面二
阅读是二语习得的重要一部分,同时也是一项思维活动。高中英语阅读教学旨在培养学生分析解决问题的能力以及批判性思维的能力。在当前高中阅读教学实践中,词汇语法结构仍是阅
论文在概述了《汉语拼音方案》诞生55年来在我国语文教育事业中发挥的巨大作用、特别是近30多年在教育信息化进程中产生的巨大效益之后,重点描述了作者研发的规范音码汉字输入
工具性与人文性相统一,是语文课程的基本特点。实际教学中,过分强调工具说造成了语文教育中幸福的功利化,学生体验到的不是完满的幸福,而是为了功利化目的而产生的暂时的充实
本研究基于生命周期评价方法,采用GaBi6软件中的CML2001模型,结合初级能源消耗情况对研究对象的资源消耗(ADP)、全球变暖(GWP)、酸化(AP)、富营养化(EP)、臭氧损耗(ODP)、光
目的:观察加味参苓白术散治疗肠内营养相关性腹泻的临床疗效,并从理论和临床两个方面探讨参苓白术散治疗肠内营养相关性腹泻的作用机制。方法:1.收治的60例肠内营养相关性腹泻患
本文从自助出版的缘起渐渐过渡到自助出版的商业模式,由浅入深地将论文重心放置于自助出版商业模式的构建,分别探讨了以自助出版平台流程为基础的业务模式、以成本与利润分成为
<正> 1 前言 随着现代工业的飞速发展,钢铁材料的防腐越来越引起各方面的重视。采用涂料是防腐蚀方法中最为经济和实效的方法。 为了获得优良的耐腐蚀性能,涂漆前必须把底材