多层文本自动分类技术的研究与应用

来源 :东华大学 | 被引量 : 0次 | 上传用户:wang3398218
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各个行业数字信息呈现指数式的增长,为方便信息组织和管理,需对海量电子信息数据按其内容进行分类,因此对文本自动分类技术提出了更高的要求。目前比较成熟的研究和应用主要集中于单层文本分类,即事先所定义的类别均处在同一层,类别之间相互独立、不存在结构和关系。但在实际应用中,多层文本分类更符合文本之间的关系,这样文本的定位准确度就更高;另外,多层文本分类把大的分类问题转化为多个子分类问题,能够有效地降低时间和空间的复杂度,使得在文本分类过程中采用复杂的分类算法仍可能获得较好的分类效果。   公安系统的案件数量庞大且种类繁多,案件类别之间有着明显的层次关系,且同一案件按照不同的角度可以归到多个类别。如,交通肇事类可以归为普通的交通事故案,也可归为故意伤人案件,这是因为案件的分类既要考虑到动机又要兼顾结果的因素。因此,本文重点研究多层文本自动分类技术,并设计了一个基于向量空间模型的多层文本分类器实现海量公安案件文本数据的自动分类,实验证明该分类器具有较好的分类性能。本文具体研究工作如下:   (1)分析了案件信息文本的特点并综合应用了分词技术、特征提取技术、特征降维技术以及文本表示方法将案件文本转换成能够直接应用于分类的数据形式。   (2)为了扑捉每个类别的特征应用于分类任务,提出了基于多重特征选择的多层文本分类特征提取方法。   (3)基于中心向量文本分类算法思想,将文本和类别(某一类文本)用向量空间模型(VSM,Vector Space Model)进行表示并通过计算文本与类别相关度,实现对案件信息文本的多层分类。文中给出了文本与类别相关度计算方法并对类别向量模型的权重公式作了深入分析,提出了基于文档频率(DF,Document Frequency)和互信息(MI,Mutual Information)相结合的DF-MI权重公式,并与经典的权重计算公式TF-IDF进行了比较,实验证明DF-MI权重公式比经典的TF-IDF权重公式在案件文本分类中更具有优越性,且获得很好的分类性能。   (4)分析了平面文本分类器的性能评价指标直接应用于层次文本分类器性能评价的不足,文中引入了错误分类分布矩阵(ECDM,Error Classification Distribution Matrix)和错误分类集中度(ECCR,Error Classification Concentration Ratio)的性能评价方法。该方法与平面分类评价指标进行综合不仅能够更加准确的评价多层文本分类的性能,且可以用于指导分类器的训练,从而进一步提高分类器得分类性能。   (5)针对案件信息文本之间信息交叉比较严重,导致分类器对某些类别区分能力比较弱的问题,文中引入了基于聚类算法(Clustering Algorithm)的混淆类判别技术,然后通过消除混淆类别之间的共有特征,以进一步提高分类器的分类性能。
其他文献
数字矿山是在矿山领域内以三维坐标信息,及其相互关系为基础组成的一个信息框架,并在该框架内嵌入我们所获得的信息的总称。其中矿山三维建模与可视化是实现数字化采矿的关键
人脸图像检索技术由于它在身份识别、电子商务,金融安全等方面具有巨大应用前景而成为当前模式识别和人工智能等领域的一个研究热点。人脸图像检索技术包括:人脸检测技术、人脸
红外光图像和可见光图像表现的是图像不同频段的特征,为了增强机器的理解能力,以及人与机器的交互作用。图像融合具有重要的意义。世界范围内生产力水平不断的提高,科技有了
物联网是近年来逐渐兴起的一个概念,它通过各种传感设备和网络将现实世界中的人和物联系起来。由于设备的普遍存在性和其具有的感知目标能力,使得它非常适合对目标进行跟踪。
复杂网络社团结构的研究为人类发现更多实际意义的社团提供了更多的借鉴。本文主要研究了复杂网络的社团结构探测算法,通过对已有算法的学习和研究,改进了一种基于K-means的
随着互联网技术的不断发展,互联网已经融入了我们生活中的方方面面。评论系统是以此为背景发展起来的一个新兴产物,其广泛应用于各大社交网站,电子商务平台,以及论坛,贴吧等
软件测试是保证软件质量的重要手段,其目的在于检验软件产品是否满足规定的需求,找出软件中潜伏的各种错误与缺陷。软件测试与软件的开发方法有着紧密的联系,不同的开发方法确定
在砂轮地貌检测中,磨粒的出露高度直接影响砂轮的磨损形式,是评估砂轮磨削性能的一个极其重要的参数。因此,快速准确的掌握磨粒的出露高度及其分布信息对揭示砂轮地貌磨削机理至
Web在我们的工作、生活中起着越来越重要的作用,利用Web这个基础平台发布信息是一种常用的方式,宝莲城网站设计开发的目的同样是为了及时有效的发布信息。如今的Web应用程序
目前,WEB应用日渐成为趋势,此类软件要求用户必须在线使用。尽管当前部分网络技术已经发展成熟,但网络环境尚未达到时刻稳定的状态。另外,经济全球化使企业工作人员出差频繁。而