基于语义的领域相关文本分类研究

来源 :北京工业大学 | 被引量 : 2次 | 上传用户:lyd936
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,特别是Internet的普及应用,Web上的文本信息爆炸式的呈现在人们面前。信息的激增使得我们需要有效地对其进行归类、过滤以不断提高人们在海量信息中寻找有效内容的效率。文本分类技术是根据文本的内容或者属性,在给定的分类体系下,由计算机自动的将大量文本归到相应的类别中。它能够处理大量的文本,可以在一定程度上解决信息紊乱的现状,方便用户定位查找所需的信息。传统文本分类算法采用关键词作为特征来构建,认为关键词之间是相互独立,没有语义关联的。虽然得到了快速的发展,但仍面临着一些问题,如没有考虑文本的结构信息及丰富的语义关联特征导致分类的效果未能达到满意的精度。而近年来网络上又有丰富的语义数据可利用,如WordNet、Wikipedia等。本文认为,充分利用这些丰富的语义数据,是提高文本分类效果的思路之一。文本分类首要面临的问题是文本数据如何表示,即文本表示模型。目前大多数文本分类方法都是以向量空间模型为基础。这种文本表示模型方法虽然比较简单,但却引发了向量空间模型的高维性和稀疏性问题,一方面使得文本分类具有相当高的时间复杂度;另一方面忽视了特征项之间的语义关联性,导致了大量语义信息的丢失,从而得到的特征向量不能很好的表示文本内容。所有这些问题都干扰了文本分类的效率及准确性,使得文本分类的性能有所下降。为了解决上述问题,本文参考语义词典WordNet提供的语义信息,提出了新的文本表示模型,研究实现了一个文本分类原型系统。针对不同类型特点的文档,选取基于概念的文本表示模型或基于距离图的文本表示模型方法,其中在概念向量空间表示模型中,以概念来作为文本特征,将具有同义关系的关键词映射到同一个概念;在距离图结构表示模型中,加入文档结构的分析,把文本特征项表示为距离图的节点,特征项间的共现关系描述为图结构的边,进而将文本映射为图结构。最后将支持向量机(SVM)分类算法与文本表示模型相结合,并使用复旦大学中文语料库测试该系统性能,从召回率、准确率和F-Measure 3方面与传统文本分类系统实验对比,结果表明本文系统中提出的方法比传统文本分类系统整体效果有所提升,其中平均准确率提高12.49%,平均召回率提高13.5%,平均F-Measure提高23.16%。总之,本文面向几个特定领域,对文本分类中的特征抽取、文本表示模型、文本分类算法等关键技术进行了理论分析和实验验证,提出了一些解决方案,并以实验结果证明了这些方案的有效性。这些算法和模型对今后研究文本分类及其他文本处理问题将有一定的参考价值和借鉴作用。
其他文献
头孢菌素类抗生素是临床上应用最广,抗感染效果最好的一类抗菌药物。从第一代发展到第四代,市场售额一直处于各类抗生素的首位。然而细菌的耐药性已成为临床用药的一大威胁,
随着环境污染、能源危机与资源短缺等问题的日益突出,世界各国越来越高度重视高效、清洁、可再生能源以及电动汽车、电动自行车、便携式电动工具等相关技术的发展。目前,电动
本文利用Ansys有限元软件建立多个冷坩埚电磁场模型,对坩埚内磁场进行计算,选择较好的圆弧型开缝设计方案,制做了的电磁冷坩埚。利用小线圈法测量了冷坩埚内空载时不同位置、
脊柱侧凸是儿童和青少年常见的脊柱胸廓畸形疾病。脊柱弯曲和胸廓畸形不仅影响患者外观,更重要的是阻碍肺脏的正常生长发育,导致不可逆的肺功能损害。严重患者甚至出现呼吸衰
探讨了家园共育理念的内涵,并重点讨论了家园共育下幼儿教育的模式构建,对幼儿教育的未来发展提出了建议和意见。
近年来,随着福利分房制度的取消,居民住房消费结构逐步升级,房产这个特殊的商品随市场快速发展起来,尤其是2006、2007年唐山市区为进行整体规划,暂停对市内新开发项目审批,二
本论文以“新农村建设背景下的农村基层休闲文化”作为研究对象,首先研究新农村建设背景下发展农村基层休闲文化的必要性和意义,也就是为什么要推进农村基层休闲文化的发展?
活性炭纤维(ACF)干法吸附技术是一种较有前途的联合脱除多种燃煤电厂污染物的综合治理方式。本文采用先硫酸后氨水的方法对ACF进行改性,分析了改性对ACF脱除VOC(甲苯作为VOCs的
自然意象是诗人雪莱诗歌中的重要元素。这些自然意象不仅特征鲜明而且蕴含了雪莱丰富的感情和深邃的思想。依据雪莱诗歌中自然意象的特征,本文从科学、浪漫生态学、审美和个
项目后评价在项目管理过程中有着重要的作用。油气田的开发建设作为我国重要的能源支柱产业,已成为国民经济的大动脉。油气田开发建设项目兼具投资大、周期长、风险高、作用