文本倾向性分析中的分类方法研究

来源 :兰州理工大学 | 被引量 : 4次 | 上传用户:lyfhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本倾向性分类是数据挖掘、模式识别和智能信息处理领域的前沿研究课题,其主要任务是根据文本中主观信息所反映的语气色彩倾向判断出其相对的情感色彩的倾向极性。支持向量机(Support Vector Machine, SVM)作为数据挖掘中的新方法,是借助于优化方法解决机器学习问题的新工具,在文本倾向性分类算法中应用广泛。核函数是支持向量机的核心,通过将低维输入向量映射到高维特征空间,有效地解决了非线性问题。核函数在支持向量机中占据极其重要的地位,是支持向量机理论成熟发展的关键。本文在已有研究工作的基础上,结合文本倾向性分类的相关技术、支持向量机理论以及核函数理论,对构造核函数的方法、选择最优核函数参数以及文本倾向性分类性能的改善等几个方面进行了系统的研究,并提出了新的算法,改善了文本倾向性分类的性能。论文的主要工作包括:(1)构造了一个由Sigmoid核函数和高斯核函数线性组合的组合核函数。高斯核函数是局部核函数,具有很好的局部学习能力,但泛化能力弱;Sigmoid核函数是全局核函数,泛化能力强,但学习能力弱。因此结合两种核函数的优势,构造出新的核函数,使预测模型在高斯核函数的作用下有具有很好的学习能力(训练误差小),并且也能在Sigmoid核函数的作用下有很强的泛化能力(测试误差小),不仅能利用高斯核函数在小范围内的强拟合性,也能利用Sigmoid核函数在整个数据集中的较强的学习能力。实验结果表明,基于组合核函数的支持向量机分类方法,与基于单核核函数的支持向量机分类方法相比,在选择合适的参数后明显改善了分类器的分类性能。(2)将基于组合核函数的支持向量机运用到文本倾向性分类中,在确定支持向量机参数时,采用了网格搜索法,并且与相关文献中采用的文本倾向性分类算法进行了实验对比。实验结果表明,采用本文提出的基于组合核函数的支持向量机的文本倾向性分类,相对于相关文献中采用的文本倾向性分类方法,在准确率、召回率、F1值,宏平均准确率、宏平均召回率、微平均准确率、微平均召回率上都有所提高。
其他文献
随着互联网的迅速发展,网络中每天都会有TB级以上的数据被产生,单一的主机已经无法负担起海量数据的存储和运算。因此使得大数据、云端运算、数据挖掘等相关议题成为近几年非常
复杂布局设计问题广泛存在于卫星舱布局设计、设施布局设计、印刷电路板设计、钢铁企业板坯设计等领域。按照是否带性能约束布局设计问题可分为带性能约束布局设计问题和无性
聚类分析算法是一种无监督的学习方法,通过寻找数据对象中隐藏的模式来对数据进行自然的、智能的分组。它根据对聚类原理的分析,本质上是一种优化问题的方法,是数据挖掘一个重要
学位
当今社会,化石能源的逐渐枯竭使得能源危机的发生不可避免,开发利用可再生能源,走可持续发展道路是人类的必经之路。太阳能拥有其他清洁能源不可比拟的优势,必将在21世纪成为新能
智能监控是未来监控行业的发展趋势,人流量统计在智能监控领域具有重要的意义,但由于背景环境的复杂性、行人运动过程中出现遮挡问题导致当前方法准确率不高,此外传统过线统
随着红外热像仪制作工艺的进步以及计算机科学技术的快速发展,红外热图像以及基于红外热图像的三维温谱图重构技术将会越来越广泛地应用到实际生活当中。基于红外热图像的三
在进行常识推理时,人们从外界获得的新信念往往会与原信念集中的一些信念产生矛盾。面对不一致信念,如何对信念集进行协调性维护,这是常识推理中一个关键性问题。目前,对不一
随着计算机技术和互联网技术的飞速发展和广泛运用,数字多媒体在人们日常生活中的使用日趋频繁。计算机强大的处理能力使多媒体信息的存储、复制、传播和修改变得非常方便的
现代社会,Internet的应用越来越普及,我们通过何种方式快速从海量的图像中搜索自己所需图像显得非常重要。基于内容的图像检索技术就是为了适应海量图像数据的存取和查询操作而