一种基于关键向量的文本分类模型的研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:fatty19830801
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机与网络技术的快速发展,网络已成为人们存储与获取信息的主要手段,存储于网上的文本数量也成指数级增长。这在为用户提供了海量信息的同时,也给用户从中获取有用信息带来了困难。如何能够快速又精准的在如此大量的信息中检索到用户所需的内容已成为当今重要的研究课题。文本的自动分类技术能够有效地将文本信息组织起来,帮助人们准确高效的定位文本信息,为用户获取所需信息提供有力的支持。自从上个世纪六十年代被提出至今,文本的自动分类技术已经有了极大的发展,有许多分类算法被提出,文本自动分类技术已经在搜索引擎,数字图书馆,信息检索等领域得到了广泛的应用。向量空间模型是目前进行大规模文本处理的一种通用模型,当前主流的分类算法如K-近邻算法(KNN),支持向量机算法(SVM)等均是基于该模型的分类算法。虽然人们对这些算法已经有了深入的研究和广泛的应用,但是在其性能上仍有许多不尽人意的地方。课题首先在系统的理论学习和对国内外文献研究的基础上,分析了向量空间模型的特点和当前主流文本自动类算法的缺点和不足。针对目前主流分类算法对待训练文档过于简单的特点提出了一个基于向量空间模型的文本分类算法,引入了关键向量的概念,通过对训练文档进行分析,找出每一类别的关键向量,并赋予其一定的权值,使其为下一步的分类工作提供更多的信息,最后利用其对测试文档进行分类。在此之后,应用实验对该算法进行了测试,并与传统分类算法进行了比较。实验结果表明,与传统算法相比,该分类算法可以在一定程度改善分类速度与精度。
其他文献
随着网络技术的迅猛发展和网络应用服务的不断深入,针对网络的攻击破坏,非法入侵等安全事件也在持续增长,而且大有愈演愈烈之势。而传统的基于入侵检测和防火墙的防御方式已
实时系统已广泛应用于国防、航空航天、通信、自动控制等领域。随着实时系统的规模和复杂性的增加,为了更好地理解所开发的系统,从而开发出高质量的实时软件,需要对系统进行
骨髓是人体的主要造血组织,对骨髓细胞形态和数量的分析有助于造血系统疾病及其他某些疾病的诊断和鉴别。传统的诊断方式是由人眼完成的,而这种方法存在很多的弊端。基于图像
射频识别(Radio Frequency Identification,RFID)是一种快速、实时、准确采集与处理信息的技术,在零售、物流、交通、医疗、国防等多个领域有着广阔的应用前景。其中,RFID中
服装CAD系统自二维向三维转变,是三维计算机技术成熟与服装个性化定制的一个必然趋势与结果。在整个服装CAD系统中,三维服装设计是最核心的部分。所以服装的褶皱的设计对提高
水平基因转移(Horizontal gene transfer,HGT),又称横向基因转移(Lateral gene transfer,LGT),是指在不同的生物个体之间遗传物质的交流,即从亲代以外的个体中获得遗传物质的
本文在分析国内外分布式信任模型以及P2P中存在的安全问题的基础上,结合现实世界中的社会关系网络,提出了一种新型的信任模型BGTR以及在此基础上设计了激励机制SOIM。该模型
随着语义Web的发展,已经有大量语义Web数据存在。然而许多数据缺少结构和丰富的知识表示,本体的不完备性比较严重。本体学习能够降低本体的不完备性,是语义Web能否成功的关键之
Internet的迅速发展给人们带来诸多方便的同时,也带来了诸如信息过载、信息迷失、色情和暴力充斥网上等很多问题,为解决这些问题,信息过滤应运而生。中文文本信息过滤是中文
无线传感器网络是一种由大量传感器节点构成的网络,用于协作的探测、采集和处理网络覆盖的地理区域中感知的信息,近年来得到了广泛的应用。安全问题是无线传感器网络中的基本