论文部分内容阅读
近年来,越来越多的以短文本(通常文本长度小于160字符)形式存在的信息逐渐成为了人们获取消息的主要途径之一,如:微信,微博,网络评论,网络聊天以及搜索引擎返回的网络片段等等。所以,如何有效地管理这些海量信息成为了亟待解决的问题,是一个十分重要的研究课题。
短文本具有长度短,描述概念信号弱,类别模糊度高等固有特点,致使当前主流的文本分类技术无法很好地运用于短文本分类领域,目前,对于短文本分类问题,一种较为有效的方法是借助外部资源中的额外信息辅助短文本分类,通过引入特定的语义关系信息或是统计信息,充分挖掘短文本含有的信息量。鉴于此,本文采用了引入外部资源的研究思路,考虑同时引入多种语义角色关系信息来辅助分类,围绕着如何能够更好地利用这些信息对短文本进行有效的特征扩展的问题展开研究,提出一种考虑扩展语义约束和统计约束的中文短文本分类方法,本文的核心和贡献在于:
(1)提出两个衡量特征有效扩展的约束指标:语义约束以及统计约束,用以判断使用含有角色关系的词对对中文短文本进行的特征扩展是否为有效扩展。当同时利用多种角色关系辅助短文本分类时,将面临着容易引入大量噪音的风险。针对这个问题,本文通过分析不同角色关系辅助中文短文本分类时的作用特点,提出衡量相似概念词对有效扩展的语义约束和衡量不同概念词对有效扩展的统计约束,并根据训练文本中的宿主-属性关系词对信息以及词语间的互信息分别获取语义约束和统计约束的相关参数。实验表明,使用语义约束或统计约束均能够在一定程度上减小特征扩展时引入噪音的概率,从而提高分类性能。
(2)提出一种考虑特征有效扩展的中文短文本分类方法;将抽取出的所有词语角色关系分为两大类,一类是具有的角色关系为相似概念的词对,另一类为不同概念的词对,在用它们对文本进行特征扩展前,分别判断其对应约束信息是否满足条件。由于如此一来获取的词语角色关系信息较多,为能够更好地充分利用这些信息,本文采用了利用关系词对增加特征权重以及增加新特征两种方法扩展测试集的特征向量,进而将有效扩展后的测试集进行文本分类。通过实验证明了该方法的可行性及有效性。