论文部分内容阅读
伴随着移动互联的快速发展,越来越多的像微博,微信,短信等短文本信息开始充斥着人们的日常生活。在推荐,舆情等方面,短文本信息的提取也起到越来越重要的作用,文本分类是一种有效的文本信息提取方法,然而由于短文本长度短,矩阵稀疏等特点,使得传统的文本分类算法不能很好适用于短文本的分类研究中,对短文本进行有效的分类也变得迫切起来。短文本分类主要涉及到短文本预处理,分词,短文本特征词提取,短文本相似度计算,短文本语义拓展等方面的技术,本文主要针对短文本分类算法和短文本相似度计算两个关键技术进行研究,针对其所存在的问题改进相关算法,提升短文本分类的性能。其一,在短文本分类方面,由于短文本信息提取过程中的语义信息添加,使得短文本的分类效率降低的问题,基于此问题,提出一种基于类别特征的KNN短文本分类算法。通过类别特征词项与训练空间样本的语义相似度,对训练空间进行重新拆分,依据测试文本结合知网词典语义信息,重构训练集,减少对应测试文本训练集的样本数,提高KNN短文本分类效率。实验结果显示,相对于基于语义的KNN短文本分类算法,在相同测试文本数量情况下,基于类别特征的KNN短文本分类算法的测试文本平均运行时间减少近50%。其二,在短文本相似度计算方面,针对基于知网的短文本语义相似度计算高度依赖知网词典,仅计算关键词间相似度,不能有效辨别文本关键词的重要程度的问题,提出一种基于类别特征的短文本相似度算法。通过对短文本关键词中类别特征词项,非类别特征词项中的名词和动词,形容词和副词及其他词性词项给定不同权重系数来进行相似度值的计算,提高短文本相似度计算的准确性。在基于类别特征的KNN短文本分类算法上的实验表明,该算法能有效的提高基于类别特征的KNN短文本分类算法的分类准确性,同时对基于类别特征的KNN短文本分类算法的效率也有进一步的提高。