基于ICF词语聚合的特征降维方法以及在中文文本分类中的应用

来源 :厦门大学 厦门大学 | 被引量 : 0次 | 上传用户:lsq_1123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类作为一项重要的数据挖掘技术,在国内广泛地应用于词义辨析、文本组织与管理、信息过滤、Web网页文档分类、数字图书馆、信息检索等众多领域,因此提高文本分类的精确度和效率有重要的研究意义。文本分类主要有文本预处理、文本分类处理、分类结果评价三个步骤,其中特征降维技术直接影响分类效果,传统的特征降维方法采用对训练语料库的分词集合统计的方法,通过计算某种评价函数选择超过预先设定的阂值的词语作为特征项。这种降维方法过于依赖训练文本集,效果受训练文本的局限,会导致过拟合。  针对过拟合现象,本文从词语间的语义关系出发,提出一种基于词语聚合的文本特征降维技术。该方法通过研究词语之间的语义关系求出分类类别词的词语聚合集作为降维的特征集。词语之间的语义关系由语义距离决定,而语义距离和词语的相似度成反比关系。在对词语相似度的研究中,本文提出基于逆概念频率ICF(inverse concept frequency)的词语相似度计算方法,计算第一基本义原结构、其他基本义原结构、关系符号结构、关系义原结构中各义原结构的ICF权重,计算概念基本特征的权重,得出概念相似度与概念权重的乘积作为词语相似度计算结果。在词语相似度研究的基础上提出词语聚合技术。基于词语聚合的特征降维技术首先用词语间的语义距离计算分类类别词语的词语聚合,计算词语聚合时利用模拟退火算法求不同分类词词语聚合的聚合半径。最后将所有分类词的词语聚合的并集作为特征集,从而达到降维的要求。  本文将基于词语聚合的特征降维技术应用在KNN分类器对待分类文本进行分类,在特征维度降为3000维时,该算法的平均查准率达到72.6%,平均查全率达到62.99%,并且通过实验对比,相比较于卡方检验和信息增益这两种特征降维技术,基于词语聚合的特征降维技术在一定程度上避免了过拟合现象。
其他文献
集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术,其目的就是协作地感知、采集和处理网络覆盖区域中感知对象的信息,并发送给观察
在互联网广泛普及的今天,电子邮件已经成为人们进行信息交互的重要工具之一。它在给人们带来极大便利的同时,也给人们带来了造成很大困扰的副产品——垃圾邮件。为了解决垃圾
随着有限元结构分析的不断复杂,传统的有限元串行计算方法因运算速度的限制,己远远不能满足工程应用的需求。网格技术和并行计算方法的飞速发展,使得这一问题得到很好的解决。利
反编泽是将较为低级的程序代码翻译成与之等价的、更为高级和抽象的程序语言表示的过程。作为软件逆向工程的重要组成部分,反编译在软件移植、恶意代码检测、程序调试以及软件
语义集成可以消除异构数据库中的数据冲突和异常,实现同一行业不同企业和机构之间的异构数据集成。异构数据的语义集成对于国家进行宏观调控、建立公共数据平台具有十分重要
目前,很多数据的传输和使用都是应用网络数据的形式进行传输,网络流量是承载网络数据的主要形式,因此,识别网络流量,进而分析提取网络数据以及实现流量检测和控制越来越重要
激光光束的传输与控制是高功率激光驱动器创新发展的核心关键技术。研究高功率激光非线性传输的空间特性及其控制措施对提高高功率激光驱动器的运行通量、保障系统运行安全等
基于视频流的卡通动画制作方法是新兴的一种计算机辅助卡通动画方法,也是当前计算机辅助卡通动画研究的热点问题之一。这种方法旨在运用计算机视觉和图像处理等技术,获取视频
近年来随着无线通信技术、传感器技术和嵌入式技术的飞速发展,无线传感器网络成为计算机科学技术的一个新的研究领域。数据采集网络是无线传感器网络一个重要的应用分支。在
近年来,我国对网络科技资源管理领域的投入逐步加大,取得了举世瞩目的成绩。为了进一步提高网络科技资源的利用率,降低网络科技资源管理的成本,我国提出了建设“国家科技基础条件