考虑特征有效扩展的中文短文本分类研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:sqe622
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,越来越多的以短文本(通常文本长度小于160字符)形式存在的信息逐渐成为了人们获取消息的主要途径之一,如:微信,微博,网络评论,网络聊天以及搜索引擎返回的网络片段等等。所以,如何有效地管理这些海量信息成为了亟待解决的问题,是一个十分重要的研究课题。   短文本具有长度短,描述概念信号弱,类别模糊度高等固有特点,致使当前主流的文本分类技术无法很好地运用于短文本分类领域,目前,对于短文本分类问题,一种较为有效的方法是借助外部资源中的额外信息辅助短文本分类,通过引入特定的语义关系信息或是统计信息,充分挖掘短文本含有的信息量。鉴于此,本文采用了引入外部资源的研究思路,考虑同时引入多种语义角色关系信息来辅助分类,围绕着如何能够更好地利用这些信息对短文本进行有效的特征扩展的问题展开研究,提出一种考虑扩展语义约束和统计约束的中文短文本分类方法,本文的核心和贡献在于:   (1)提出两个衡量特征有效扩展的约束指标:语义约束以及统计约束,用以判断使用含有角色关系的词对对中文短文本进行的特征扩展是否为有效扩展。当同时利用多种角色关系辅助短文本分类时,将面临着容易引入大量噪音的风险。针对这个问题,本文通过分析不同角色关系辅助中文短文本分类时的作用特点,提出衡量相似概念词对有效扩展的语义约束和衡量不同概念词对有效扩展的统计约束,并根据训练文本中的宿主-属性关系词对信息以及词语间的互信息分别获取语义约束和统计约束的相关参数。实验表明,使用语义约束或统计约束均能够在一定程度上减小特征扩展时引入噪音的概率,从而提高分类性能。   (2)提出一种考虑特征有效扩展的中文短文本分类方法;将抽取出的所有词语角色关系分为两大类,一类是具有的角色关系为相似概念的词对,另一类为不同概念的词对,在用它们对文本进行特征扩展前,分别判断其对应约束信息是否满足条件。由于如此一来获取的词语角色关系信息较多,为能够更好地充分利用这些信息,本文采用了利用关系词对增加特征权重以及增加新特征两种方法扩展测试集的特征向量,进而将有效扩展后的测试集进行文本分类。通过实验证明了该方法的可行性及有效性。
其他文献
神经元集群编码和spike train分析是神经信息处理的关键问题。随着多电极同步记录技术的发展,在海量数据中发现神经信息处理的模式和规律,需要多维神经发放的理论模型和计算
已知一种高性能的两步文本分类方法,第一步使用某种分类器对可靠部分的文本进行分类,第二步使用某种分类器对不可靠部分的文本再进行分类,该方法能够明显地提高分类的效果。而两
突现是复杂系统中通过个体间的非线性交互作用而产生的群体行为,是复杂系统表现出来的高层次事物整体所具有而其组分不具有的一种新特性。针对突现现象的研究已经成为复杂系统
计算机的普及和更新带动了互联网的发展,互联网的发展使得网络上信息的传播更为迅速和广泛。博客作为一种互联网用户之间用于交流和传播信息的工具,受到大部分人的喜爱,成为网络
近年来,车载设备作为监测列车运行状态的重要组成部分,其健康运行受到人们的广泛关注。目前关于车载设备的研究大多是基于车载设备采集系统对列车上空调系统、受电弓、车钩及
随着生物信息学的发展,生物医学数据呈爆炸式的增长,目前已经拥有数百个活动的生物医学数据库,如何管理和分析这些海量的数据已成为研究的重点。数据挖掘技术用于发现大量数据所
室内电波预测由于不同室内环境的复杂性而出现了较多的预测模型。电磁波传播理论与数值分析方法为基础的确定性射线跟踪模型,依靠现有的计算机技术能够较好的预测电波数据。射
随着计算机技术的飞速发展和生活水平的提高,人们在许多领域对信息安全要求越来越高,例如用计算机对小区进行智能监控,不仅节约人力资源和成本,也为日后案件的调查提供证据。
蛋白质折叠结构预测问题是当前生物学研究的一个热点。由于其特殊的结构和所使用的模型限制,利用NP问题的求解来求其最小能量值从而推测出折叠结构是这个问题的研究方向之一。
随着计算机网络在各个领域中的广泛应用,产生了庞大的网络信息,其中,以手机短信、QQ聊天记录、博客评论、新闻评论等短文本形式存在的信息也得到了空前的膨胀,如何对这些以短文本