面向Web文本检索的归一化一分类算法

来源 :重庆大学 | 被引量 : 0次 | 上传用户:KingofPriser
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索作为互联网应用的重要组成部分,与人们的日常生活密不可分;而作为文本形式的web应用仍然是互联网的主流应用。如何从大量的Web文本中更加有效的检索信息,依然是许多科研人员所面临的难题。文本自动分类技术,不仅是自然语言处理领域的一个重要分支,而且是信息检索和数据挖掘的基础和重要组成部分。   面对每天数以亿计的互联网Web文本页面的更新,针对Web信息检索的文本分类技术,不能仅仅考虑分类算法的正确性,还要考虑分类算法的效率。本文从分类的精度和时间性能两方面作为切入点,提出了一种分类精度高,训练和分类时间代价小的归一化向量(Normalized Vector,简记NLV)文本分类算法。   本文首先介绍了信息检索和文本分类的背景知识和相关过程,然后对已有的典型特征选择方法和文本分类算法做了较详细描述。通过对已有方法与技术的总结,提出了一种基于矩阵投影(MP)运算的特征选择方法和归一化向量(NLV)分类算法。   MP方法属于概率模型的特征选择方式,不仅考虑词的文档频率,并且还考虑了词的平均出现频率。对信息增益(IG)、卡方校验(CHI)、文档频率(DF)、互信息(MI)和矩阵投影(MP)特征选择做了对比分析;并且采用多种分类算法验证MP特征选择方式是可行有效的。   NLV分类算法通过压缩运算将高维的单类别向量空间压缩成低维的归一化向量,并通过归一化函数(方根型或对数型)对归一化向量的特征权重进行调整,较好地训练出分类模型。本文分别采用三套不同平衡性和语种的较大规模Web文本型语料库(20-Newgroups、TanCorpV1.0、SogouC),五种特征选择方法(DF、CHI、IG、MI、MP)和四种分类算法(kNN、MBNB、MNNB、SVM)做了大量而全面的对比实验来验证NLV算法的实用性和高效性。NLV算法训练和分类速度是五种算法中最快的,分类精度在中文语料库上略低于SVM,但是速度方面与SVM相比占有绝对优势;而在20-Newgroups语料库上NLV算法能够取得最优的分类精度和时间性能。
其他文献
在过去的几十年中,关系型数据库提供了完善和成熟的管理功能,然而随着Web2.0和大数据应用的不断落地,日益增长的互联网应用要求对海量规模及多类型数据进行有效管理,同时对系
随着教育体制的不断改革,继续教育的发展规模日益壮大。但与其相对应的信息管理建设还处于相对滞后的状态,开发安全易用的基于WEB的信息管理系统已成为继续教育管理进程中亟待
在信息技术迅猛发展的今天,各行各业在使用信息管理系统的过程中收集了大量数据。这些数据中有不少数据项涉及个人或公司的隐私,隐私泄露成为这些数据收集发布过程中不可避免的
视频序列中的运动目标的检测与跟踪是智能视频监控系统中最基础的两项核心技术,它们是视频监控技术智能化和实时应用的关键,也是计算机视觉方向的研究热点。在运动目标检测与
聚类分析是无监督模式识别的一个重要分支,作为一个重要的数据挖掘工具已经广泛应用于多个领域。它是把一个没有类别标记的数据集按照某种准则聚为若干类,使相似的数据集尽可能
在全业务运营时代,多样性客户的增多和业务种类的增多,使得网络规模也越来越大,运维和管理相对更加复杂。客户数量的剧增和客户需求的多样性对于运营商即是挑战也是机遇。挑
随着近年来银行、电力、交通、安检以及军事设施等领域对安全防范和实时监控系统的需求与日俱增,视频监控得到了迅速的发展和广泛的应用,该领域的智能化研究也引起了越来越多的
自2007年云计算诞生至今,它已经逐渐成为国内外IT界热门的概念,得到了广泛的关注。在当今互联网高速发达的环境中,面对数据量的急剧增长,如何快速有效的对海量数据进行存储和计算
现今社会,伴随着信息技术与经济的快速发展,在图像处理与信息数据自动采集技术方面,图像识别技术与二维码技术获得了广泛的应用,因此,在当前针对这两方面技术的研究已经成为比较热
数字图像作为有效的信息媒介,已经被广泛应用在安全监控、科学研究、新闻和医疗等领域。但伴随各类功能强大、简单易操作的图像编辑软件的出现,数字化的图像信息面临着相当大的