文本倾向性分析中的分类方法研究

来源 :兰州理工大学 | 被引量 : 4次 | 上传用户：lyfhua

【摘要】

：

文本倾向性分类是数据挖掘、模式识别和智能信息处理领域的前沿研究课题,其主要任务是根据文本中主观信息所反映的语气色彩倾向判断出其相对的情感色彩的倾向极性。支持向量

【作者】

：

王娟

【机构】

：

兰州理工大学

【出处】

：

兰州理工大学

【发表日期】

：

2013年01期

【关键词】

：

文本倾向分类文本自动分类支持向量机特征选择核函数分类器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本倾向性分类是数据挖掘、模式识别和智能信息处理领域的前沿研究课题,其主要任务是根据文本中主观信息所反映的语气色彩倾向判断出其相对的情感色彩的倾向极性。支持向量机(Support Vector Machine, SVM)作为数据挖掘中的新方法,是借助于优化方法解决机器学习问题的新工具,在文本倾向性分类算法中应用广泛。核函数是支持向量机的核心,通过将低维输入向量映射到高维特征空间,有效地解决了非线性问题。核函数在支持向量机中占据极其重要的地位,是支持向量机理论成熟发展的关键。本文在已有研究工作的基础上,结合文本倾向性分类的相关技术、支持向量机理论以及核函数理论,对构造核函数的方法、选择最优核函数参数以及文本倾向性分类性能的改善等几个方面进行了系统的研究,并提出了新的算法,改善了文本倾向性分类的性能。论文的主要工作包括：(1)构造了一个由Sigmoid核函数和高斯核函数线性组合的组合核函数。高斯核函数是局部核函数,具有很好的局部学习能力,但泛化能力弱；Sigmoid核函数是全局核函数,泛化能力强,但学习能力弱。因此结合两种核函数的优势,构造出新的核函数,使预测模型在高斯核函数的作用下有具有很好的学习能力(训练误差小),并且也能在Sigmoid核函数的作用下有很强的泛化能力(测试误差小),不仅能利用高斯核函数在小范围内的强拟合性,也能利用Sigmoid核函数在整个数据集中的较强的学习能力。实验结果表明,基于组合核函数的支持向量机分类方法,与基于单核核函数的支持向量机分类方法相比,在选择合适的参数后明显改善了分类器的分类性能。(2)将基于组合核函数的支持向量机运用到文本倾向性分类中,在确定支持向量机参数时,采用了网格搜索法,并且与相关文献中采用的文本倾向性分类算法进行了实验对比。实验结果表明,采用本文提出的基于组合核函数的支持向量机的文本倾向性分类,相对于相关文献中采用的文本倾向性分类方法,在准确率、召回率、F1值,宏平均准确率、宏平均召回率、微平均准确率、微平均召回率上都有所提高。

其他文献

基于MapReduce框架的频繁项集挖掘算法研究

随着互联网的迅速发展，网络中每天都会有TB级以上的数据被产生，单一的主机已经无法负担起海量数据的存储和运算。因此使得大数据、云端运算、数据挖掘等相关议题成为近几年非常

学位

大数据频繁项集挖掘HadoopMapReduce

两个2D布局问题的知识启发式算法研究

复杂布局设计问题广泛存在于卫星舱布局设计、设施布局设计、印刷电路板设计、钢铁企业板坯设计等领域。按照是否带性能约束布局设计问题可分为带性能约束布局设计问题和无性

学位

二维等圆Packing问题拟人拟物矩形板材组板问题启发式分治算法

基于动态膜计算的聚类算法

聚类分析算法是一种无监督的学习方法，通过寻找数据对象中隐藏的模式来对数据进行自然的、智能的分组。它根据对聚类原理的分析，本质上是一种优化问题的方法，是数据挖掘一个重要

学位

聚类膜计算动态膜进化MCMO算法

基于公共子结构的RDF多查询优化算法研究

学位

基于GPS的太阳跟踪控制系统研究

当今社会，化石能源的逐渐枯竭使得能源危机的发生不可避免，开发利用可再生能源，走可持续发展道路是人类的必经之路。太阳能拥有其他清洁能源不可比拟的优势，必将在21世纪成为新能

学位

GPS太阳能自动跟踪Atmega128控制系统

基于热点区域定义的人流量统计系统关键技术研究

智能监控是未来监控行业的发展趋势,人流量统计在智能监控领域具有重要的意义,但由于背景环境的复杂性、行人运动过程中出现遮挡问题导致当前方法准确率不高,此外传统过线统

学位

头肩初定位HOG目标转移矩阵KCF人流量统计

基于红外热图像的三维重构方法研究

随着红外热像仪制作工艺的进步以及计算机科学技术的快速发展,红外热图像以及基于红外热图像的三维温谱图重构技术将会越来越广泛地应用到实际生活当中。基于红外热图像的三

学位

红外热像仪自标定稠密匹配点云去噪三维温谱图三维重构

子句型信念集的静态非修正处理方法研究

在进行常识推理时,人们从外界获得的新信念往往会与原信念集中的一些信念产生矛盾。面对不一致信念,如何对信念集进行协调性维护,这是常识推理中一个关键性问题。目前,对不一

学位

信念可信度子句集扩充认识进程

鲁棒性数字水印和脆弱性数字水印的研究

随着计算机技术和互联网技术的飞速发展和广泛运用,数字多媒体在人们日常生活中的使用日趋频繁。计算机强大的处理能力使多媒体信息的存储、复制、传播和修改变得非常方便的

学位

数字水印离散分数随机变换临界差异值子采样

基于颜色和形状特征的图像检索

现代社会，Internet的应用越来越普及，我们通过何种方式快速从海量的图像中搜索自己所需图像显得非常重要。基于内容的图像检索技术就是为了适应海量图像数据的存取和查询操作而

学位

颜色特征形状特征相似性匹配图像检索体系结构处理过程

文本倾向性分析中的分类方法研究

与本文相关的学术论文