基于向量空间模型的文本分类技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:js_123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本是互联网上的主要信息载体,文本自动分类技术能够有效地将文本信息组织管理起来,帮助人们准确高效的定位文本信息,为用户获取所需信息提供有力的支持。 文本分类的关键技术主要包括向量空间模型、特征项赋权、特征选取、分类器构建等,本文对这些技术作了详细介绍和深入分析。在特征赋权方面,本文在向量空间模型基础上,分析了TF-IDF权重算法的不足,提出了结合TF-IDF与类间分布信息的改进权重算法。实验结果表明改进的权重算法对分类精度有所提高。本文对几种常用的特征选取算法进行了研究比较,分析了互信息算法进行特征选取精度不高的可能原因,改进了互信息算法。实验结果表明改进的互信息算法提高了分类精度。本文考察了几种常用的分类算法,并且通过实验测试了它们的性能。结合分类算法Rocchio的特点和基于层次结构的分类理论,本文在实验中实现了基于Rocchio的层次分类方法。
其他文献
阵列信号处理是用一组按一定方式排列的天线阵元对空间传播信号进行采样,再由天线阵列的采样数据来尽可能的利用、提取和恢复空间信号的有用信息,同时抑制干扰和噪声的一种信
期刊
面向综合属性的工程项目管理系统是由珠海移动工程管理中心提出的系统,主要目的是将现代管理方法应用到工程项目管理活动中,对各类工程项目的状态,如启动、谈判、实施、监控、收
在不增加系统带宽和发射功率的情况下,多输入多输出(MIMO)技术能够极大地提高无线通信系统的频谱效率,同时还能够通过提供丰富的分集增益来提高系统的性能,因而受到了广泛的
期刊
近年来,随着移动便携设备的普及,无线局域网技术取得了巨大的发展。无线局域技术的发展使得各种便携设备以较为低廉的价格接入网络,其中IEEE 802.11是目前最成熟的无线局域网