基于概念与词根双特征互助文本分类模型的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:ewenxj860411
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络信息以惊人的速度激增,处在一个“信息爆炸”时代,如何快速准确地获取我们所需要的信息的需求使得文本分类已成为一个非常重要的课题,同时,文本分类技术也是信息检索、自然语言处理领域的基础技术,使得更多专家投入到文本分类的研究,应用前景很广泛。目前有关使用半监督学习进行文本分类的研究已经非常深入,其中co-training是半监督学习非常典型的一种,并得到了广泛的应用。但常见的co-training方法应用于文本分类中,在构建双视图时,仅仅根据词形(词根)而忽略了语义(概念)对分类的重要性。本文在co-training框架基础上,融入语义对分类的影响,提出通过概念与词根双特征互助的方法来提高分类模型的效果。本文首先简单介绍了文本分类的研究背景和相关技术,接着详细介绍了文本算法思想的需要的两大基础,co-training框架和Word Net文本库,并在co-training框架的基础上结合Word Net本体库提出了基于概念与词根双特征互助的文本分类算法。相比于其他基于co-training的分类算法,本文从概念与词根两个角度去构建双视图,而非仅从文本的内容提取词根构建双视图,考虑了语义对分类的影响。其中,基于概念的分类与基于词根的分类方法又不同,词根之间的联系可以忽略,而Word Net本体库中的概念之间是有联系,故在进行概念的文本分类时引入了语义相似度的计算,并运用于概念分类用到的计算公式,最后给出了基于概念与词根文本分类算法的过程描述。本文给出了两组对比性实验,验证与普通的分类算法相比,基于概念与词根双特征互助的分类模型有效性和r参数(Word Net本体库中概念节点之间的距离)不同选择对分类模型的影响。实验结果表明基于概念与词根双特征互助的新算法具有更高的准确率和召回率;参数的选择会影响分类器的性能,且r越大效果越差。
其他文献
概念格也称为Galois格,是形式概念分析理论中的核心数据结构,它利用二元关系建立一种概念间的层次关系,是进行数据分析和规则提取的有效工具。随着研究深入,形式概念分析越来
串匹配是计算机研究领域的一个经典问题,是众多网络安全系统中的关键技术之一。随着互联网的普及和发展,海量信息的处理和新的应用需求对串匹配技术提出了新的挑战。 本文
近年来,图像分割成为计算机视觉和图像处理技术中备受关注的一个前沿方向,其研究在智能监视系统、军事应用等领域都有广阔的应用前景和理论意义。本文以图像分割和图像后处理
电子政务建设的目标是向公众提供公共服务,如何向公众提供准确有效并个性化的公共服务成为了电子政务建设方面的重要课题。本论文针对电子政务环境下缺乏用户浏览行为收集、
本文讨论了两个自然带前瞻的在线最大化问题,并分析了竞争比的上下界。对在线信道分配问题,我们给出了一个O(n~2)的离线算法,一个(K+1)/K的竞争比下界,和一个(1+1/((?)(K-1)/
近年来,随着全球信息化进程的加快,人们在享受网络带来的资源共享及信息交流方便快捷的同时,也不得不面对越来越多的来自网上的恶意攻击,所以,网络安全作为一个严肃的问题呈
由于数据缺乏语义信息及其查询处理缺乏语义支持,传统基于关键词的信息查询只能查找出与用户查询条件在语法层上匹配的信息,而无法给出与其在语义层上具有相关性的其它信息,从而
随着信息与通信技术的飞速发展,信息安全日益受到人们的重视。密码技术是信息安全技术的核心。在加密算法中,IDEA和ECC是安全性较高的加密算法。本文在充分研究原IDEA算法的
随着GIS的快速发展,以移动终端为载体的移动地理信息系统(GIS)已成为地理信息系统研究的热点。同时,卫星通信技术不断成熟,其业务内容、产业规模都不断发展,目前,只需少数的几颗通
随着计算机网络和Internet的普及,运用先进的管理信息系统及软件开发平台,对信息进行科学化和网络化管理,已经成为高校信息系统的发展趋势。目前,几乎所有高校的职能部门都已经建