基于汽车评论的文本情感分类特征选择方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:tananhua251
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着信息技术的迅猛发展,互联网迎来前所未有的新局面。以网络为传播媒介的文本评论信息越来越受到企事业单位和个人的关注。传统的主题分类已经不能满足人们的需求,用户希望得到更多的主观性信息,如:公共事件的社会反映、焦点新闻的追踪报道、产品的用户反馈及民意调查信息等。然而,网上每天都有大量的新评论出现,对于这些评论,仅靠人工进行跟踪和分析显然是行不通的,人们开始关注并研究评论文本的主观性情感倾向分析。  本文针对文本情感分类中的特征选择问题进行了研究,主要内容包括:⑴建立了以汽车产品评论为主的中文文本情感分类语料库,并在此基础上建立了汽车产品知识库。⑵研究了停用词对文本情感倾向性分类的影响。选用信息增益、互信息和x2统计三种特征选择方法,布尔权重和频率权重两种权重计算方法,并选用支持向量机作为分类器进行了实验研究。实验结果表明,当选用不同的停用词表时,它们对文本情感分类的影响不尽相同,停用词表对情感分类作用较大,整体性能效果较好。⑶提出了基于类别区分能力的混合特征选择方法,并测试了其对文本情感分类的作用。该方法是基于词汇的类别区分能力与信息增益相结合的特征方法,讨论了在不同的特征选择方法和不同维数特征空间下对文本情感分类结果的影响。实验结果表明使用混合的特征选择方法要优于使用单一的信息增益方法。⑷从特征选择和维数压缩的角度,提出了基于粗糙集理论的特征选择方法。通过对情感分类问题的分析并结合粗糙集理论,将属性离散化方法用于文本情感分类中的特征选择、维数压缩,利用支持向量机作为分类器进行分类实验。实验结果表明,该方法具有良好的特征可解释性和较好的特征维数压缩效果。
其他文献
该论文的主要研究工作为:1.第一次详细地叙述了联想记忆Hopfield网络的感知机观点,即一个Hopfield网络可以看成是由一些感知机相互联结而成的,从结构、学习模式和学习目的的
随着现代汽车技术的飞速发展,传统汽车采用的点对点通信方式已远远不能满足复杂的控制系统要求。采用CAN总线技术不仅能实现车载电子控制单元(Electronic Control Unit, ECU)
该文提出用软测量的方法,对高炉喷吹总管中的煤粉流量进行测量.要实现这个目的,首要问题就是对高炉煤粉喷吹系统建立模型.该文在绪论部分对经典辨识方法、模糊辨识方法和神经
该文的研究目标是开发一套"ISO 9000知识咨询与贯标支持系统.以帮助企业方便的建立和维护自身的质量体系.首先,在对系列标准的知识特征和层次结构进行详细分析的基础上,该文
双馈电机是结合异步电机和同步电机的优点而发展起来的一种新型电机。它不仅可以满足一般场合机械调速的需要,而且能通过调节转子电压幅值和相位来实现电机定子侧功率因数的调节,另外还可应用于变速恒频调速发电系统。双馈电机能工作在超同步发电、超同步电动、亚同步发电以及亚同步电动等多种状态,具有良好的运行性能和较高的调节效率,具有非常广阔的发展前景。本文主要对转子绕线式电动机双馈调速系统进行相关的研究:首先,根
语音识别是一门内涵丰富、应用广泛的技术,它的实用性和趣味性使得人们对它有着迫切的应用需求。当今语音识别在办公或商业系统的数据库语音查询、工业生产部门的语声控制、
本文主要研究木糖醇发酵过程的软测量技术及其控制。将软测量技术应用于木糖醇发酵过程,建立在线估计木糖浓度、干细胞浓度和木糖醇浓度的软测量模型,以解决发酵过程生物参数
银行支票的自动识别与处理是重要的研究课题.支票自动识别系统牵涉到支票系统的预处理、单字符的预处理、规范化、识别器的设计和系统的后校验.该文主要研究手写 中国银行支