短文本分类中高品质特征模式抽取及扩展策略研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:huangtongfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和通讯产业的快速发展,各种形式的信息扑面而来。而短文本(通常文本长度小于160字符)作为手机短信息、在线即时聊天记录、论坛用户评论等信息的主要表现形式,已经成为网络中大众信息传播的重要渠道。短文本分类技术,它是基于内容分析将短文本分派到预先定义的类别中,在信息安全和商业信息获取等领域具有重要的应用前景。由于短文本具有长度短、所描述概念信号弱的固有缺陷,使当前主流文本分类技术用于短文本时,分类器性能变坏。解决上述问题的一种可行性途径是利用额外信息来辅助短文本分类。   本文利用关联分析理论,从训练语料集中挖掘出具有关联关系的特征词语组合,构成特征扩展模式,用于对短文本进行特征扩展,以弥补其概念信号弱的固有缺陷,通过对先对文本信息对象进行特征扩展处理,进而将其分类成属于某个种类还是不属于某个种类。本文的核心和贡献在于:⑴提出一种构造高品质特征扩展模式库的方法。选择关联分析理论作为挖掘工具,用来发现隐藏在训练数据集中的具有关联关系的特征组合并形成短文本的特征扩展模式,进而构造出一个高品质的特征扩展模式库。针对简单特征扩展模式不适用于短文本分类的问题,本文引入了新的特征扩展模式度量指标,即:类别趋同性(Category Homoplasy)、关联强度(Relevancy Strength),用来提高特征模式品质,从而保证了用来辅助短文本分类的额外信息的准确性。⑵提出一种利用高品质特征扩展模式的中文短文本分类方法。该方法是在分类阶段,先对短文本进行特征扩展,即将文本信息对象中的非精简特征作为扩展源,基于高品质特征扩展模式所表示的词语间的关联关系,通过为短文本的特征空间增加新特征词语或者改变原特征词语权重的方式来提高短文本的概念描述能力,而后分类扩展后的短文本。通过实验验证了该分类方法的有效性。⑶提出一种考虑特征扩展的中文短文本分类模型。通过该模型可将短文本的不同特征扩展方式和其扩展程度融合在一起,为短文本的分类提出一种较为合理的特征扩展策略,并通过实验验证该分类模型的合理性。
其他文献
无线传感器网络主要任务是对监控区域的信息进行采集,以达到远程监控的目的,在军事和民用领域蕴含着广泛的应用前景。由于传感器节点结构简单、能量有限,且通常部署在危险甚至敌
随着Internet中多媒体实时业务的广泛应用,人们对QoS(Quality ofService)组播的需求日益增长,然而研究表明,QoS组播路由带有多个QoS约束参数,它是一个NP(Non-deterministic Polyn
随着近几年互联网的飞速发展,网络中各种各样的电子文本信息急剧膨胀。如何迅速、有效地从这些海量的、非结构化的文本中获取我们所需要的信息和知识已经成为自然语言处理领
随着网络技术的发展和计算机在各个行业的普及,每天都有海量的电子数据需要存储和管理。电子数据由于其自身特点,在存储过程中极易被篡改、伪造、破坏或毁灭。人们使用了安全备
蛋白质折叠预测在生物信息学领域是非常关键的问题,蛋白质折叠解释了不同的生物现象,可以用来预测以及控制这些生物学现象。为了模拟蛋白质折叠的形成过程,近年来许多学者提
目前,各航天大国越来越趋向于使用体积小、重量轻、无转动部件、高可靠性的NAND闪存做为空间数据记录器的存储部件。通常,一个闪存分成若干块,每个块又分成若干页。块是擦除
近年来,由于网络的大规模发展,流媒体视频直播已经渐渐成为互联网核心业务之一,因而也有越来越多的关注。也有很多成功的商业系统向大家展示了流媒体视频直播的可行性。然而,
随着软件技术的飞速发展以及软件应用的广泛普及,用户对软件的可靠性和安全性提出了更深层次的要求。软件测试是保障软件质量、确保程序正确性的必经流程和必要手段。但是随着
随着传感器技术、嵌入式计算技术、分布式信息处理技术和通信技术的迅速发展和日益成熟,推动了具有划时代意义的无线传感器网络的产生和发展,其目的是协作地实时监测、感知、采
近年来,随着微机电系统与无线通信技术获得长足发展,已涌现出许多种类的无线网络。这些网络的发展主要集中于提升数据传输率与降低网络能耗,而在某些能量受限的应用中,能量的有效