基于语义分析的半监督文本分类技术研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:xjtcfx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪以来,互联网的崛起带给了人们大量原始文本信息,如何帮助人们快速掌握最有效信息变得非常重要。建立在人工智能基础上的文本分类技术可根据文本的语义分析实现大规模文本数据的分类,从而帮助人们获取想要的信息。文本分类技术主要通过训练好的具备分类能力的分类器来进行文本分类。在机器学习算法对大量已标注的文档数据进行学习后,我们可以获得传统的监督文本分类器实现对文本的分类。但是这种监督学习方式存在明显的缺点,需要事先对所有的文档进行人工标注,非常耗费时间和精力。基于此,半监督的学习方式被提出来,只需要标注部分文档。但这种方式还是没有完全解决问题,因为对实现大规模的文档数据比如Web数据的分类来说行不通。为彻底克服人工标注文档的不足之处,提出了基于自动标注的文本分类方法,实现了全自动监督文本分类。在自动标注的过程中,通过借助外部语义资源对种类名称进行语义扩展,利用种类名称与文档内容之间的语义相似度对所有原始文档进行自动标注。在文本分类过程中,首先通过分词技术和停用词表对已标注的文档进行预处理,然后通过计算文档特征词的卡方统计量实现特征选择,并对选出来的特征词进行加权,最后将数值化后的训练数据用于机器学习算法进行监督学习,得到一个监督分类器实现文本分类。实验表明,基于自动标注的文本分类方法在不需要人工标注数据的基础上能够实现大规模的文本分类,提高了效率。全自动监督文本分类技术要求对所有原始文档进行自动标注,这样必然会引入噪音,导致分类结果达不到精度要求。为解决分类精度不高的问题,对上面方法进一步改进,提出了基于改进型自动标注的半监督文本分类技术。有两个方面的改进:(1)对自动标注进一步改进,结合更多的外部语义资源以及原始文档本身进行种类名称扩展,同时提出二次筛选算法对初步标注结果进一步优化和筛选,保证过滤出来的部分训练文档被精确标注。(2)采用半监督的学习方式实现文本分类,这样只需要用少部分被精确自动标注的训练文档和大量未标注文档就能获得一个高精度文本分类器。实验表明,改进后的半监督文本分类技术有效避免了自动标注带来噪音的问题,分类精度平均高于其它监督模型的分类效果,具有一定的商业价值。
其他文献
景观格局的尺度效应是指实验区中植被或水体、裸地等景观组成的格局随尺度的变化而产生的变化。从中找出景观的特征尺度,进而可以对景观格局的掌握更加准确。而鸟类栖息地的景
社交网站是继门户网站之后的第二代互联网模式,也是Web2.0的一种核心应用,这类网站在近十年加速了互联网的社会化及商业化发展。本文在介绍社交网站的结构层次和基本特征的基
就当今中小企业面临的招聘难和留人难的问题,指出塑造雇主品牌是解决这一难题的有效途径。由于校园招聘又是宣传雇主品牌最为有效的手段之一,所以分析了中小企业在利用校园招
无花果抗性强,适应性广,对土壤、气候、水分等条件要求不高,生产管理简单,3~5年进入丰收期,667m2产量2000kg以上,结果早、产量高,没有大小年,病虫害少,几乎不施用农药,栽培管
在充分考虑无人攻击机自动驾驶仪动态因素的基础上,设计了一种能够垂直命中目标的末制导律。该制导律较大程度地改善了无人攻击机终端命中角问题,同时大大提高了无人机的攻击
高分辨率卫星在轨运行期间,由于星上转动部件高速转动、有效载荷中扫描系统转动、可控构件驱动机构步进运动、低温制冷器压缩机以及百叶窗等热控部件机械运动、大型柔性结构
《红楼梦》在我国世界文学史上具有不可替代的地位。从人物描写来看,这部小说其实就是以女性为中心且为女性树碑立传的小说。在这部作品中,作者塑造了非常多较为生动、鲜明而
2月6日,国家卫生计生委副主任马晓伟在“国新办新闻发布会”上表示,2014年我国大病保险工作推进迅速,目前大病保险基金共计筹资总额已经达到97亿元,2014年全年共有115万人次受益
报纸
目的研究二氯乙酸钠(dichloroacetate,DCA)对氧糖剥夺(oxygen glucose deprivation,OGD)损伤模型中小鼠小胶质细胞(BV2细胞)的保护作用,并探讨其作用机制。方法将BV2细胞分为
隐伏断层对于道略、地基等具有重大威胁,高密度电阻率法是以地层之间电阻率差异为基础的探测地下构造和电性异常体的一种间接性的地球物理方法,近年来,在近地表探测隐伏断层