基于短语模式的文本情感分类算法及其在邮件过滤中的应用

来源 :上海大学 | 被引量 : 0次 | 上传用户:hfj0219
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感分类是文本分类一个新的研究分支,其目的是判断一篇文章对评价对象所持有的情感倾向是支持还是反对。它可以广泛应用在文本检索、文本过滤等领域中。 对情感分类的研究,目前国外有些学者初步提出了一些方法,同时还建立了供公开测试的语料库,国内一些学者也开始了在这一领域的研究尝试。 本文在总结前人工作的基础上,从文本中词和短语的分析着手,提出了基于短语模式的文本情感分类算法(PhrasePatternsBasedTextSentimentClassification,以下简称PTSC)。该算法通过分析文本中的情感词以及由这些情感词构造的短语模式,来作为文本的情感特征,并利用这些特征实现文本的情感分类。该算法改善了以往基于统计的文本分类算法因缺乏语义上的约束而在文本情感分类上的不足。 PTSC算法主要包括情感词汇的选取、短语模式的构造、短语模式情感倾向的评价以及文本情感倾向值的判断。算法通过分词、标注、抽取有效的短语、计算全文情感倾向值等步骤实现,文本情感分类的结果依据全文情感倾向值来确定。 该算法在邮件过滤项目中得到应用,达到了较好的查准率和查全率,有效地控制了过滤的误判率,保持了较高的过滤时空效率,取得良好的效果。通过开放性实验验证,基于短语模式的文本情感分类算法过滤的查准率达到了89.8%,查全率达到了93.8%。
其他文献
智能家庭网络是信息时代带给人们的又一个高科技产物。它借助现有的计算机网络技术,将家庭内各种家电和设备连网,通过网络为人们提供各种丰富、多样化、个性化、方便、舒适、
随着科学技术的不断发展,会议电话技术与计算机技术不断融合,功能和互动性不断地增强,然而,会议电话技术在与计算机技术融合的过程中,同时会将计算机领域中的安全性问题带入。本文
智能家庭网络的最终成功需要多方面的技术和市场共同努力,不同的公司、集团针对不同的客户群,提供不同的个性化的产品和服务。本课题定位于家庭网络控制中心—家庭网关的实现研
MES系统是位于企业上层生产计划和底层工业控制之间,面向车间层的生产管理技术与实时信息系统。随着各企业对其MES系统不断增长的依赖性,MES系统的脆弱性日益暴露,由于系统重
本文在对国内外研究现状进行综合分析的基础上,从一个全新的角度对XML函数依赖的推理规则与蕴涵问题进行了研究。 首先,对当前广泛使用的两种主要XML模式进行了比较和分析;对
在软件开发过程中,如何提高软件生产率、改善软件可维护性和可扩展性,是学术界亟待解决的问题。 构件技术是目前先进的软件开发技术之一,基于构件的软件开发可避免相同功能模
随着网络的规模的不断加大,互联网在人们的生活中占有越来越重要的地位。同样也是随着网络的规模的不断加大,大量的信息传输特别是并发的实时数据流极易导致网络整体通信性能
石油行业工作现场分散,自然环境恶劣,其现有的医院信息管理存在点多、面广、区域分散的特点。这些系统分布在各节点上运行,数据采集后不能及时进行综合处理和分析,各场地之间的协
作为一种新型的网络技术,卫星互联网可以提供任何人(Whoever)在任何地方(Wherever)于任何时间(Whenever)都能与任何人(Whomever)以任何方式(Whatever)进行通信的能力,是向分
在传统业务领域,以太网以技术成熟、价格低廉等优势在局域网中牢牢占据着统治地位。同时,以太网也逐渐进入工业控制领域,并且,在现场总线领域,已经研究出强实时性、高带宽、