短文本分类研究

来源 :重庆理工大学 | 被引量 : 0次 | 上传用户:dengliguo1971
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着移动互联的快速发展,越来越多的像微博,微信,短信等短文本信息开始充斥着人们的日常生活。在推荐,舆情等方面,短文本信息的提取也起到越来越重要的作用,文本分类是一种有效的文本信息提取方法,然而由于短文本长度短,矩阵稀疏等特点,使得传统的文本分类算法不能很好适用于短文本的分类研究中,对短文本进行有效的分类也变得迫切起来。短文本分类主要涉及到短文本预处理,分词,短文本特征词提取,短文本相似度计算,短文本语义拓展等方面的技术,本文主要针对短文本分类算法和短文本相似度计算两个关键技术进行研究,针对其所存在的问题改进相关算法,提升短文本分类的性能。其一,在短文本分类方面,由于短文本信息提取过程中的语义信息添加,使得短文本的分类效率降低的问题,基于此问题,提出一种基于类别特征的KNN短文本分类算法。通过类别特征词项与训练空间样本的语义相似度,对训练空间进行重新拆分,依据测试文本结合知网词典语义信息,重构训练集,减少对应测试文本训练集的样本数,提高KNN短文本分类效率。实验结果显示,相对于基于语义的KNN短文本分类算法,在相同测试文本数量情况下,基于类别特征的KNN短文本分类算法的测试文本平均运行时间减少近50%。其二,在短文本相似度计算方面,针对基于知网的短文本语义相似度计算高度依赖知网词典,仅计算关键词间相似度,不能有效辨别文本关键词的重要程度的问题,提出一种基于类别特征的短文本相似度算法。通过对短文本关键词中类别特征词项,非类别特征词项中的名词和动词,形容词和副词及其他词性词项给定不同权重系数来进行相似度值的计算,提高短文本相似度计算的准确性。在基于类别特征的KNN短文本分类算法上的实验表明,该算法能有效的提高基于类别特征的KNN短文本分类算法的分类准确性,同时对基于类别特征的KNN短文本分类算法的效率也有进一步的提高。
其他文献
分布式防空战场资源管理是构建现代防空体系的核心问题.基于对分布式防空战场资源管理特点的分析,提出了基于多智能体(Agent)的分布式防空战场资源管理体系结构,并深入分析了
基于时点视角,运用向量自回归模型(VAR)分析货币流动性对股票市场流动性和银行融资流动性的冲击效应,并引入动态条件相关系数模型(DCC-MVGARCH),基于时段角度分析货币冲击下
针对舰炮弹道观测校正中的弹道最佳估计问题,提出了转换卡尔曼滤波算法,在三维空间里对观测弹丸飞行轨迹进行滤波,估计最佳弹道.给出了具体的算法并用某型海军舰炮进行了仿真
近年来,我国影子银行体系迅猛发展且结构日趋复杂化,不仅加剧了市场流动性风险和系统性风险,还在一定程度上干扰了货币政策调控。针对银行表外理财的分析表明,近年来监管套利
在中等职业教育工作中,美术教育是培养和塑造中职生艺术素养和审美情趣的素质教育课程,对于培养和激发中职生的审美意愿、审美情趣具有非常重要的意义。顺应社会经济发展给中