基于评价对象及其情感特征的中文文本倾向性分类研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zjzzhength
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近几年互联网的发展,网络评论数量正日益增加。对这些网络评论进行挖掘和分析,识别出其中的情感倾向,对于电子商务、网络监管等领域有着重要的意义和实用价值。因而文本倾向性分类(Semantic Orientation Classification)正逐步成为自然语言处理领域的一个研究热点。本文研究的中文文本倾向性分类,即通过分析文本中的情感倾向,将文本判别为褒义或贬义两个类别。由于情感表达的复杂性,将传统基于机器学习的文本分类方法直接应用于文本倾向性分类领域,往往无法达到很好的分类效果。为提升分类性能,本文尝试为分类系统加入更多的语义信息,设计并实现了一个基于评价对象及其情感特征的中文文本倾向性分类系统。本文的主要研究工作和成果有:1)研究了传统基于机器学习的文本分类方法应用于中文文本倾向性分类领域的分类性能。通过采用不同的停用词表、特征选取方法、特征加权方法和分类器进行比较实验,最终发现采用保留情感信息相关词性的停用词表,并应用基于TF-IDF加权的支持向量机分类模型,能取得较好的分类效果。2)研究了情感特征候选集的获取方法。通过以《知网情感分析用词语集》中的词汇为种子集合,使用《同义词词林扩展版》进行同义扩展,获得了包含情感倾向性信息的常用词汇列表。3)研究了文本中评价对象及其情感特征的识别方法。考虑到文本所表达的情感倾向必然针对特定的对象,所以有必要将文本中的评价对象及其对应的情感词识别出来,作为包含文本倾向性信息的重要特征。本文采用了依存句法分析模块,并针对不同的依存关系制定了相应的识别规则,达到了较好的识别效果。4)提出了基于评价对象及其情感特征的文本向量模型。本文通过将(评价对象,情感词,情感标记)三元组作为文本向量特征,成功地将情感倾向性信息融入文本向量模型。5)提出了TSF-IDF的特征加权方法。通过词汇情感频率(TSF)和逆向文件频率(IDF)的结合,综合考虑了特征在文档中的情感倾向频度和在文档集中的重要程度。6)构建了基于评价对象及其情感特征的文本倾向性分类系统。在系统实验中,使用支持向量机分类器,对于酒店评论和电影评论这两个主题的语料进行了测试,分别获得了约89%和87%的准确率,效果优于使用传统的文本分类方法。
其他文献
近年来,随着移动通信业务的普及,手机等移动终端设备已逐渐渗透到人们生活的方方面面。然而,公众在享受移动语音业务带来的方便快捷的同时,也面临着语音通话中不可忽视的安全
数字喷泉码是针对大规模数据分发和可靠广播的应用特点而提出的一种新的信道编码方案,近年来受到了学术界和产业界的广泛关注。为了提高喷泉码的纠错性能,论文在分析其编码结
随着无线业务需求的快速增长,第五代移动通信系统研究正全面进行。近年来,滤波器组多载波(Filter Bank Multi-Carrier, FBMC)、广义频分复用(Generalized Frequency Division
在大规模WEB并发访问过程中,为保证用户请求得到及时、准确的响应,一般采用多服务器集群技术。作为其工作核心,负载均衡算法负责将来自客户端的大量并发请求均衡地分配到后端服
随着经济和社会的发展,食品安全问题得到人们的广泛关注,而鸡蛋作为日常生活中最大众化的食品之一,其品质检测和分级显得尤为重要。传统的鸡蛋品质检测和分级方法依靠人工视觉,检
高速数据采集和存储系统目前在雷达、图像处理、声纳、通信等领域有着广泛地应用。特别是随着雷达成像技术逐渐成熟,图像分辨率和数据采样率都大为提高,需要实时保存海量的数据
对心电信号(ECG)的识别是及时诊断各种严重心脏疾病的基本手段。室性早搏(PVC)和房性早搏(APV)是威胁人类生命的严重的心脏疾病。本文提出基于模式熵方法识别正常窦性心律(NS
信道编码理论及技术作为现代通信系统必不可少的关键技术,近几十年在Shannon信道编码定理的指引下已经经历了飞速的发展并取得了大量的研究成果。目前,低密度奇偶校验码(LDPC
小波分析是在短时傅立叶变换的基础上发展起来的一种具有多分辨率特性的局部分析方法,它通过伸缩、平移等运算对信号进行多尺度细化分析,从信号中提取有效信息,是分析非平稳
本课题来源于济南联通公司的NGN网络建设项目。NGN是目前国际和国内通信领域研究的焦点之一,为多种网络的融合提供了可行的方案。为了在电信界新的革命浪潮中占得先机,世界各个