交叉覆盖算法下文本分类的研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:huodong004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类,是将非结构化的文本依据其内容指派到一个或多个预先定义的类别中去的一项技术,近10年来受到了人们越来越多的关注。这主要因为大量机器可读的电子文本的出现,迫切需要对文本进行有效地分类,以提高查找、阅读速度的结果。目前尽管已有许多技术和算法用于文本的自动分类,但是,对这些技术和算法本身效力的挖掘还远远不够,仍留有很大的改进空间。另外,还有新的分类方法尚待深入研究,特别是对于中文文本的自动分类,之前相关的研究工作相对较少,有名气的中文文本分类器更少。文本分类器对于学习算法和分类的结果都是至关重要的一步。在学习算法和分类系统能够处理文本之前,文本必须转换成一种适当的表示形式。这种表示形式要在一定程度上能够捕获文本本身的语义内容。依据前面的要求,可以把中文文本分类技术过程描述为:文本数据集的搜集,中文文本的分词,高维的原始特征空间的降维计算,分类器的选择,分类结果的评价等。本文所做工作如下:1、介绍了文本分类相关概念,对现有文本分类方法进行了介绍;2、为了从分词结果中获取对分类有用的信息,本文中使用不同的特征降维方法:互信息方法、相关系数法、文档频率法,及期望交叉熵法对分词结果进行降维处理,实验显示相关系数法对分类最为有效,期望交叉熵与互信息方法稍差,文档频率法效果最差;3、本文还通过实验,对使用交叉覆盖算法作为分类器与使用SVM方法作为分类器进行比较,通过比较可以看出,交叉覆盖算法作为分类器对中文文本进行分类,在适当的维数和特征降维法下,具有较好的分类效果;本文对中文文本分类进行了一些工作,但在本论文的基础上,还有需要改进和提高之处。因此,对中文文本分类的进一步研究工作可从如下三个方面展开:1、本文文本表示模型采用的是向量空间模型,在向量空间模型方面,结合计算语言学,使用概念空间代替词空间;没有考虑到汉语词义之间的影响:中文分词采用的是中国计算所的ICTCLAS的分词结果,以后可以进一步研究如何提高分词的精确度;2、对交叉覆盖算法进行改进,提高其分类正确率;3、目前的分类体系为平面体系,可以在层次分类体系中考虑文本分类系统,使分类由平面向三维空间发展,以便大幅度提高分类算法的准确率和加快分类的速度。
其他文献
基于内容的图像检索是当前多媒体技术和人工智能的热点课题之一,它直接对图像内容(如图像的颜色、形状、纹理、背景等)进行分析,并对图像特征进行合理的描述,使得检索与分类
计算机和Web技术为电子商务提供了一个巨大的信息平台。该平台为商家和顾客提供了便利的手段来发布和获得相关信息,使得电子商务发展迅速。同时,随着其规模的不断扩大,信息的日
网格是一种并行分布式系统,可根据资源可用性、功能、性能、成本及用户的服务质量需求,共享、选择及聚合分布在多个管理域的资源。网格计算要从试验阶段发展到商用阶段仍面临众
随着通信行业的迅猛发展,数字电视已经渗透到现今人们的日常生活中,成为人们生活中必不可少的一项休闲娱乐活动的工具。世界各国也开始纷纷加入数字电视研究的热潮中,字幕作为数
随着计算机网络技术的不断发展,网络通信技术已经开始融入传统的电话业务。网络电话成为Internet上新的服务领域之一,不仅具有成本低廉、网络资源利用率高等诸多优点,还可进
WebGIS 是以互联网为环境,以Web 页面作为GIS 软件的用户界面,把Internet和GIS 技术结合在一起,为各种地理信息应用提供GIS 功能。J2EE(Java 2 PlatformEnterprise Edition)是一
随着Internet的快速发展,网络内容的安全性问题也日益突出。具有高匹配效率的包过滤防火墙,对于网络通信内容的监测、过滤、处理无能为力。应用级代理防火墙虽然能够理解应用层
条码技术是迄今为止最经济、实用的一种自动识别技术。条码的广泛应用各行各业,极大地提高了数据采集和信息处理的速度,提高了工作效率,为管理的科学化和现代化作出了很大贡献。
多中心车辆路径问题( MDVRP )是一个复杂的组合优化问题,其复杂性甚于车辆路径问题( VRP ),该问题在现实生活中普遍存在,与人们的生活息息相关。蚁群算法( ACO )作为一种比较
相变存储器即PCM(Phase Change Memory),是一种非易失新型变阻存储器,通过存储单位处于不同的电阻态来记录零和一的数据信号。具有存储密度高、读写访问延迟低等特点。在擦写次数