论文部分内容阅读
随着互联网和通讯产业的快速发展,各种形式的信息扑面而来。而短文本(通常文本长度小于160字符)作为手机短信息、在线即时聊天记录、论坛用户评论等信息的主要表现形式,已经成为网络中大众信息传播的重要渠道。短文本分类技术,它是基于内容分析将短文本分派到预先定义的类别中,在信息安全和商业信息获取等领域具有重要的应用前景。由于短文本具有长度短、所描述概念信号弱的固有缺陷,使当前主流文本分类技术用于短文本时,分类器性能变坏。解决上述问题的一种可行性途径是利用额外信息来辅助短文本分类。
本文利用关联分析理论,从训练语料集中挖掘出具有关联关系的特征词语组合,构成特征扩展模式,用于对短文本进行特征扩展,以弥补其概念信号弱的固有缺陷,通过对先对文本信息对象进行特征扩展处理,进而将其分类成属于某个种类还是不属于某个种类。本文的核心和贡献在于:⑴提出一种构造高品质特征扩展模式库的方法。选择关联分析理论作为挖掘工具,用来发现隐藏在训练数据集中的具有关联关系的特征组合并形成短文本的特征扩展模式,进而构造出一个高品质的特征扩展模式库。针对简单特征扩展模式不适用于短文本分类的问题,本文引入了新的特征扩展模式度量指标,即:类别趋同性(Category Homoplasy)、关联强度(Relevancy Strength),用来提高特征模式品质,从而保证了用来辅助短文本分类的额外信息的准确性。⑵提出一种利用高品质特征扩展模式的中文短文本分类方法。该方法是在分类阶段,先对短文本进行特征扩展,即将文本信息对象中的非精简特征作为扩展源,基于高品质特征扩展模式所表示的词语间的关联关系,通过为短文本的特征空间增加新特征词语或者改变原特征词语权重的方式来提高短文本的概念描述能力,而后分类扩展后的短文本。通过实验验证了该分类方法的有效性。⑶提出一种考虑特征扩展的中文短文本分类模型。通过该模型可将短文本的不同特征扩展方式和其扩展程度融合在一起,为短文本的分类提出一种较为合理的特征扩展策略,并通过实验验证该分类模型的合理性。