基于语义分析的半监督文本分类技术研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：xjtcfx

【摘要】

：

21世纪以来,互联网的崛起带给了人们大量原始文本信息,如何帮助人们快速掌握最有效信息变得非常重要。建立在人工智能基础上的文本分类技术可根据文本的语义分析实现大规模文

【作者】

：

许泽文

【出处】

：

北京工业大学

【发表日期】

：

2017年01期

【关键词】

：

文本分类半监督自动标注分类器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

21世纪以来,互联网的崛起带给了人们大量原始文本信息,如何帮助人们快速掌握最有效信息变得非常重要。建立在人工智能基础上的文本分类技术可根据文本的语义分析实现大规模文本数据的分类,从而帮助人们获取想要的信息。文本分类技术主要通过训练好的具备分类能力的分类器来进行文本分类。在机器学习算法对大量已标注的文档数据进行学习后,我们可以获得传统的监督文本分类器实现对文本的分类。但是这种监督学习方式存在明显的缺点,需要事先对所有的文档进行人工标注,非常耗费时间和精力。基于此,半监督的学习方式被提出来,只需要标注部分文档。但这种方式还是没有完全解决问题,因为对实现大规模的文档数据比如Web数据的分类来说行不通。为彻底克服人工标注文档的不足之处,提出了基于自动标注的文本分类方法,实现了全自动监督文本分类。在自动标注的过程中,通过借助外部语义资源对种类名称进行语义扩展,利用种类名称与文档内容之间的语义相似度对所有原始文档进行自动标注。在文本分类过程中,首先通过分词技术和停用词表对已标注的文档进行预处理,然后通过计算文档特征词的卡方统计量实现特征选择,并对选出来的特征词进行加权,最后将数值化后的训练数据用于机器学习算法进行监督学习,得到一个监督分类器实现文本分类。实验表明,基于自动标注的文本分类方法在不需要人工标注数据的基础上能够实现大规模的文本分类,提高了效率。全自动监督文本分类技术要求对所有原始文档进行自动标注,这样必然会引入噪音,导致分类结果达不到精度要求。为解决分类精度不高的问题,对上面方法进一步改进,提出了基于改进型自动标注的半监督文本分类技术。有两个方面的改进:(1)对自动标注进一步改进,结合更多的外部语义资源以及原始文档本身进行种类名称扩展,同时提出二次筛选算法对初步标注结果进一步优化和筛选,保证过滤出来的部分训练文档被精确标注。(2)采用半监督的学习方式实现文本分类,这样只需要用少部分被精确自动标注的训练文档和大量未标注文档就能获得一个高精度文本分类器。实验表明,改进后的半监督文本分类技术有效避免了自动标注带来噪音的问题,分类精度平均高于其它监督模型的分类效果,具有一定的商业价值。

其他文献

森林—草原交错带鸟类群落及栖息地尺度效应研究

景观格局的尺度效应是指实验区中植被或水体、裸地等景观组成的格局随尺度的变化而产生的变化。从中找出景观的特征尺度，进而可以对景观格局的掌握更加准确。而鸟类栖息地的景

学位

森林-草原交错带鸟类栖息地尺度效应特征尺度鸟类群落景观格局

社交网站风潮下校园招聘的新方向

社交网站是继门户网站之后的第二代互联网模式,也是Web2.0的一种核心应用,这类网站在近十年加速了互联网的社会化及商业化发展。本文在介绍社交网站的结构层次和基本特征的基

期刊

社交网站校园招聘

中小企业利用校园招聘塑造雇主品牌的建议与对策

就当今中小企业面临的招聘难和留人难的问题,指出塑造雇主品牌是解决这一难题的有效途径。由于校园招聘又是宣传雇主品牌最为有效的手段之一,所以分析了中小企业在利用校园招

期刊

雇主品牌校园招聘组织适配理论沟通机制

无花果栽培及管理综合生产技术

无花果抗性强,适应性广,对土壤、气候、水分等条件要求不高,生产管理简单,3~5年进入丰收期,667m2产量2000kg以上,结果早、产量高,没有大小年,病虫害少,几乎不施用农药,栽培管

期刊

无花果建园定植土肥水管理整形修剪防寒

无人攻击机垂直命中目标末制导律研究

在充分考虑无人攻击机自动驾驶仪动态因素的基础上,设计了一种能够垂直命中目标的末制导律。该制导律较大程度地改善了无人攻击机终端命中角问题,同时大大提高了无人机的攻击

期刊

无人攻击机制导律制导与控制

相机平台颤振对高分辨率光学遥感成像的影响分析

高分辨率卫星在轨运行期间,由于星上转动部件高速转动、有效载荷中扫描系统转动、可控构件驱动机构步进运动、低温制冷器压缩机以及百叶窗等热控部件机械运动、大型柔性结构

学位

颤振模型图像叠加瞬时视场视觉效果

《红楼梦》作品中的女性意识分析

《红楼梦》在我国世界文学史上具有不可替代的地位。从人物描写来看,这部小说其实就是以女性为中心且为女性树碑立传的小说。在这部作品中,作者塑造了非常多较为生动、鲜明而

期刊

《红楼梦》女性意识分析

2015年新农合结报升级加速

2月6日，国家卫生计生委副主任马晓伟在“国新办新闻发布会”上表示，2014年我国大病保险工作推进迅速，目前大病保险基金共计筹资总额已经达到97亿元，2014年全年共有115万人次受益

报纸

二氯乙酸钠对氧糖剥夺损伤的BV2细胞的保护作用及其机制研究

目的研究二氯乙酸钠(dichloroacetate,DCA)对氧糖剥夺(oxygen glucose deprivation,OGD)损伤模型中小鼠小胶质细胞(BV2细胞)的保护作用,并探讨其作用机制。方法将BV2细胞分为

期刊

二氯乙酸钠氧糖剥夺ROSNF-κB

高密度电阻率法在近地表隐伏断层检测中的应用

隐伏断层对于道略、地基等具有重大威胁,高密度电阻率法是以地层之间电阻率差异为基础的探测地下构造和电性异常体的一种间接性的地球物理方法,近年来,在近地表探测隐伏断层

期刊

高密度电阻率法近地表隐伏断层背景电阻率

基于语义分析的半监督文本分类技术研究

其他学术论文