使用语言概念空间特征的文本分类研究

来源 :中国科学院声学研究所 | 被引量 : 0次 | 上传用户:wspywps110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是文本处理中的一项重要的基础性工作,面向主题的文本分类可用于电子图书和期刊资源的加工,面向作者写作风格的文本分类可用于伪作鉴定、轶作确认和司法领域中文书作者的鉴定。文本分类也可以服务于信息检索等其它应用,改进其处理效果。语言概念空间是HNC认定的存在于人类大脑中的各种自然语言的普遍的共性部分,是人类交流的基础。语言概念空间的特征突破了各种语言的表象,揭示了语言深层的概念联想脉络。   本文研究的目的是通过对语言概念空间特征在文本分类中使用的理论分析和实验研究,探索改进文本分类效果的方法。   本文采取理论探索和实践检验相结合的研究方法,主要的研究内容包括:分析语言概念空间中各类特征的特点;选取有研究价值且现实可行的特征应用到文本分类;考察使用以上特征在文本分类中的性能表现并分析原因;针对已有算法中的不足进行改进,在改进中着重研究各种改进算法的原理、测试结果以及有关参数的确定。   在研究中,本文取得了如下成果:   (1)提出将表示语义深层的语言概念空间特征和向量空间模型相结合的文本分类策略,使用该策略形成的分类器取得了较好的分类效果:在面向主题分类中,MAFMmax(最大微平均F-测度)达到了0.904,在面向作者写作风格分类中,MAFMmax达到了0.984。   (2)提出了混合句类特征向基本句类特征转化的处理策略,在最大程度保存混合句类信息条件下,有效降低了句类向量空间的维度。   (3)根据部分文本中特征分布的非均匀性,提出并实现了长文本拆分判决算法,提升了分类器的效果。   (4)提出并实现了多特征集成判决算法的三个方案,不同程度上提高了分类的效果;提出了特征选用的策略,并给出特征选用的参考顺序表(包含面向主题和作者写作风格两类不同需求下的13类语言概念空间特征)。   (5)提出并实现柔性KNN算法,提升了分类效果;给出了算法的具体应用条件。   本文使用语言概念空间特征和有关的改进算法,取得了较好的分类效果,并且随着语言概念空间特征分析能力的加强和相关算法改进,性能还会进一步提升。
其他文献
通过酶谱分析和切胶检测,发现黑曲霉A-25发酵液分别产生的三型木聚糖酶(命名为XynⅠ、XynⅡ和XynⅢ)和三型β-(1,3-1,4)-葡聚糖酶(命名为GluⅠ、GluⅡ、GluⅢ)。XynⅢ与GluⅢ属
星跟踪器作为惯性导航系统的校正装置,通过对星跟踪器实时捕获的星图进行处理得出精确的位置和亮度信息,从而修正惯性导航系统的累积误差,有效地提高定位精度。本文研究星了跟踪
信号完整性(Signal Integrity,简称SI)是指一个信号在电路中产生正确的响应的能力。具有良好的信号完整性是指当在需要的时候,具有所必须达到的电压电平数值。差的信号完整性不
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
近些年出现的云计算、大数据、高清多媒体业务,促进了数据中心的发展。数据中心间海量的信息的交换,业务流量和流向的不确定性,对传统的带宽固定、调制格式单一的波分复用光
随着微电子技术、计算机技术和通信技术的高速发展,各行业的信息化程度得到显著提高,实时的数据采集和处理及高速数据传输成为各领域内数字化设备最为关键的要素之一。在分布式
本文针对一套应用于广播电视系统中的视频水印嵌入和检出设备,提出了一种基于模块判决的空域水印嵌入和检出算法,并将这一算法成功地应用于视频水印嵌入和检出演示系统中。在系
拖曳线列阵声纳具有远离噪声平台、探测盲区小的特点,在水声工程领域得到了广泛应用。“安静型”潜艇的出现,促使拖曳线列阵向低频、大孔径、主被动方式的方向发展,低频主被动拖
过度放牧是导致浑善达克沙地荒漠化发展的重要原因之一。在该地区占据优势的根茎型克隆草本植物不仅被牲畜频繁地采食,而且也面临着频繁的沙埋和养分胁迫的干扰。通过克隆生长
学位
心音是心脏房室瓣活动的机械振动所致。心音在心血管疾病的临床诊断、尤其是对对先天性心脏病(congenital heart diseases,CHD)的初诊具有极高的诊断价值。心音图(PCG)是心脏