利用语言概念空间的文本分类研究

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：kaigg

【摘要】

：

文本分类是语言信息处理的基础技术,广泛应用于信息检索、信息过滤等方面,同时信息处理需求的提升对文本分类技术的要求也越来越高。本文针对主流文本分类方法无法做到内容理

【作者】

：

丁泽亚

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2012年期

【关键词】

：

文本分类 HNC理论语言概念空间概念节点概念关联规则语义块关联知识歧义消解文本去重

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类是语言信息处理的基础技术,广泛应用于信息检索、信息过滤等方面,同时信息处理需求的提升对文本分类技术的要求也越来越高。本文针对主流文本分类方法无法做到内容理解、性能提升有限等问题,研究了将HNC语言概念空间的语义知识引入分类模型,运用概念信息、概念关联知识以及句类信息实现对类别文本一定程度上的内容理解,在此基础上提高分类效果。建立语言概念空间的语义知识与文本分类模型的有效融合是本文研究工作的难点。本文研究的主要贡献与创新点包括:　　 1.提出基于类别概念降维的文本分类方法。该方法根据区分度挖掘类别核心概念,利用类别概念进行词特征降维,再根据类别概念计算文本与类别的关联度来完成分类。实验表明,类别概念特征降维方法能有效降低特征空间的维度,同时保证分类效果;特征项较少时,运用类别关联度分类相比SVM、KNN和Bayes方法有优势,分类效果较好、速度较快。　　 2.提出了基于概念关联规则的文本分类方法。该方法不局限于词特征和概念,进一步探索类别的概念关联关系特性,提出了从类别文本概念树中挖掘频繁概念项集和概念关联规则的方法,并通过概念规则树实现了运用类别概念关联规则的文本分类方法。分别对常见类别语料和特殊主题的网页语料进行了分类实验研究。结果表明,概念关联规则分类方法(NR)对两种语料分类的F1值分别达到了0.9123和0.9602,与SVM、KNN、Bayes方法相比效果明显,并且高于类别概念降维分类方法。　　 3.提出了基于类别语义块关联的分类方法(SSR)。该方法尝试在分类中引入语义块关联知识,通过文本中语义块概念节点组成及关联的聚合获得文本语句语义特征,再通过类别中不同文本之间语句语义信息的再聚合,获得类别语句语义聚合,建立了文本与类别语义聚合的语义相关度计算方法,实现类别判定。由于利用语句知识较少,SSR方法比Bayes方法的分类效果略好,相比NR方法、SVM方法等有所降低。　　 4.提出了基于上下文语境关联概念的无导词义消歧方法,以解决文本分类中的概念模糊问题。综合考虑词语义项与上下文语境的词汇相关度和概念相关度,实现了不依赖于训练集的无导词义消歧,准确率达到了85.61%。　　 5.提出了基于编辑距离的网页去重策略,以解决网页文本分类中网页文本的大量重复问题。该方法兼顾网页内容和结构采用编辑距离方法计算网页文本的相似度,实现了准确快速的网页去重方法。实验中这种方法的准确率达到98.39%,召回率达到89.71%,去重效果较好。

其他文献

灵巧认知无线电中的主用户行为决策研究

频谱是宝贵而稀缺的无线通信资源。目前的无线频谱由于多采用长期、固定的分配方式，造成了某些频段资源紧张而另一些频段利用率低下的状况，认知无线电概念的提出解决了这一问题

学位

灵巧认知无线电动态频谱分配OFDM传输技术违规惩罚授权用户行为决策

细菌16S—23S核糖体RNA基因间区序列分析及应用研究

本文对细菌16S—23S核糖体RNA基因间区序列分析及应用进行了探讨。本研究基于16S-23S rRNA基因序列在DNA测序基础上应用生物信息学软件进行细菌的同源序列比对，设计出阪崎肠杆

学位

病原细细菌核糖体基因序列

ASN.1编码中空闲字段的快速处理算法与应用

ASN.1(ASN.1(Abstract Syntax Notation One)即抽象语法标记1，是一种定义抽象数据类型规格形式的标准，它在通信领域中具有重要的意义，对于通信设备之间的数据传输起着不可替代的

学位

通信领域数据传输抽象语法标记1空闲字段乘性减小算法加性增加算法

基于多模干涉耦合器的硅基90度光混频器的研究

集成相干光通信系统,不仅具有相干光通信系统的高灵敏度()的优势,同时还具有体积小、成本低,热稳定性好、便于批量生产等光集成技术的优点。90°光混频器是相干光接收端的重

学位

90度光混频器多模干涉耦合器自映像效应附加损耗相位偏差

WDM网络中基于QoP+QoS的多播应用保护策略研究

随着光通信技术的快速发展及应用,光网络中的业务更加多样化,特别是,波分复用(Wavelength Division Multiplexing,WDM)技术的日趋成熟为WDM网络承载多播业务提供了相应的技术

学位

WDM网络多播保护网络保护质量与服务质量虚源恢复机制

荒漠人工固沙植被区土壤水分动态变化研究

在干旱荒漠地区实施生态恢复与生态防护工程，使地表由流动沙丘变为固定的植被覆盖景观，地表覆被特征的变化，将改变原来的水分转化关系，直接影响区域的基本水文生态环境特征。沙坡

学位

土壤水分

黑河中游绿洲-荒漠过渡带沙拐枣种群结构及特征研究

绿洲-荒漠过渡带受绿洲生态系统与荒漠生态系统的双重影响，其植被稳定和环境良性发展对绿洲稳定起着至关重要的作用。前期调查表明，在黑河中游临泽绿洲-荒漠过渡带，沙拐枣(Calli

学位

荒漠过渡

白念珠菌高铁还原酶FRP1基因及其与Rim101蛋白相互作用的研究

白念珠菌是念珠菌病原体中最常见的一种条件性致病菌，由白念珠菌引起的感染逐年增多，受到国内外广泛的重视。白念珠菌应答的一个主要环境因素为细胞外的pH，这种应答反应是由保守

学位

白念珠菌高铁还原酶基因蛋白调控转录因子

冗余字典下的压缩感知研究

冗余字典下的压缩感知研究相对于经典的标准正交基而言具有更加广泛的现实意义。因此,冗余字典下的压缩感知研究一直是压缩感知领域研究的核心问题之一。在这种情形下,一种信

学位

压缩感知对偶框架冗余字典(e)1-分析方法误差界(e)1-综合

黄土高原径流/土壤水动态及其原因：综合地面观测和遥感监测的研究

供水服务是生态系统服务中的一项非常重要的服务,它对人类生活和经济的发展起着支撑作用,但气候变化和人类活动极大地改变了生态系统的供水服务。黄土高原是一个严重受水分限

学位

黄土高原河川径流人为活动AMSR-E/2土壤水分植被修复气候变化

利用语言概念空间的文本分类研究

与本文相关的学术论文