词间语义关系的研究及其在文本分类中的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:aqqz2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本分类是信息检索领域的基本任务之一。随着互联网上的信息量呈爆炸性增长,人们很难从大量的文本信息中迅速有效地提取出所需信息。为了解决信息迷向的现象,对文本分类的研究显得越来越重要。本文设计并实现了基于模块化的可扩展自动文本分类系统。对分类过程中的各重要环节进行了细致全面的研究和分析。在此基础上我们提出了将自然语言处理领域中的词语语义关系挖掘模型与文本分类系统相结合的方法,目的在于解决目前向量空间模型中词语相互独立这一基本假设的不合理性。同时期望通过利用文本中词语间的深层内涵,在较小的向量空间内表示更加丰富的文档信息,并以此提高文本分类的测试效果。语义关系挖掘模型利用语言学的句法分析和信息学的统计思想,通过对文本语料的深层挖掘,得到词条间网状语义关系词典。该词典资源丰富了文本的向量信息,使得向量表示更加高效简洁。我们把该模型与强大的SVM分类器模型结合在一起,显著提升了分类系统的结果。在实验中我们将该模型与标准的词袋模型在20NG和Reuters测试语料上进行比较。结果表明语义关系扩展可以明显改进文本分类的准确率和召回率。而且还可以在保证分类结果的同时,有效地降低计算的空间和时间复杂度,使得对超大规模文本语料的分析成为可能。最后,作者提出了语义关系挖掘模型在信息检索领域中未来的研究方向。
其他文献
随着光纤技术的发展,特别是密集波分复用DWDM(Dense Wave length Division Multiplexing)技术的使用,使得光纤中能够传输更大的数据容量,满足大数据业务要求。因此以DWDM技术为核
人口问题是当今世界面临的重大问题,也是影响城市现代化建设的重要因素。人口与城市的基础设施建设、经济发展、生态环境保护紧密的联系在一起,影响着城市可持续发展的策略。但
具有真实感的三维人体造型和运动控制技术是计算机图形领域中的一项热门课题。它在虚拟现实、影视特技、游戏设计等众多领域扮演着重要的角色。随着计算机技术的不断发展,它在
个性化信息服务是在网上信息激增的背景下发展起来的,它包括基于合作的推荐和基于内容的推荐。 基于合作的推荐根据用户之间的兴趣相似性来推荐资源,它把和目标用户具有相
WebGIS是互联网技术和GIS相结合而产生的一种新技术,它利用Internet来扩展和完善GIS功能,是GIS研究的一个重要的领域。然而国内外的很多软件厂商所开发的WebGIS系统平台都使
随着数码产品的不断推陈出新,基于嵌入式操作系统的便携式媒体播放器(PMP)开发越来越受到各开发商的重视。它以其方便携带的特点,使得随时随地看电影成为可能。本文基于Windows
Ad Hoc网络是一种自组织的无线网络,它具有无线传输、高度的动态拓扑、无中心、多跳路由等特点。这使得它在某些应用场合具有独特优势的同时也提出了不少技术上的难题,其中路
医学图像检测和医学图像增强技术是当前图像处理领域研究的热点,本文在实际需求的指引下,根据东软医疗系统有限公司总体研究工作部署,作者先后参加了图像检测和图像增强技术两个
随着计算机的迅速普及,“以人为中心”的新一代人机交互技术成为当前研究的热点问题。手势识别是其中一个不可或缺的组成部分。尤其是基于计算机视觉手势识别的研究,因其符合
搜索引擎(Search Elngine)是随着Web信息的迅速增加,从1995年开始逐渐发展起来的技术。作为互联网上最主要的信息搜索工具,搜索引擎在各个领域都已得到广泛应用。然而,由于网