【摘 要】
:
随着新型互联网应用的迅猛发展,微博快速崛起,用户数达到2.81亿,使用率达到45.5%,每天数以千万人通过微博分享自己对各类话题的观点与情感,如何自动感知微博主体的情感,并从
论文部分内容阅读
随着新型互联网应用的迅猛发展,微博快速崛起,用户数达到2.81亿,使用率达到45.5%,每天数以千万人通过微博分享自己对各类话题的观点与情感,如何自动感知微博主体的情感,并从宏观上科学研判微博社区对特定话题的观点倾向性,已经成为微博计算与舆情分析亟待解决的基本科学问题。然而,以往的情感分析大都是基于整个传统长文本层面,并且由于微博内容短小且不规范,碎片化与主体化特征日益凸显,传统的情感分析算法存在本质缺陷,效率低下且效果很难满足实际需求。利用情感词典分析用户产生内容的情感倾向性是简单有效的方法。但由于情感词典规模有限,同时网络用语新词层出不穷,语言使用不规范,人工整理耗时耗力,领域性强。为解决以上问题,本文提出一种自动挖掘潜在情感词并计算其情感权重的算法,该算法与应用领域无关,具有良好的扩展性。该方法基于贝叶斯原理和大数据挖掘,能够挖掘未知的情感词,并根据其情感权重值的大小判断其情感极性及情感倾向性程度,可有效扩展情感词典,并丰富情感词典的精细化使用,从而实现了情感词库的自动挖掘与获取。同时,在此基础之上,实现情感主体属性的识别,包括观点句识别、情感对象抽取及情感倾向性判断,从而完成情感分析的本体自动抽取。本文在理论研究的基础上进行算法的实践验证,同时为验证该方法能够实现跨领域,本文又分别针对京东商城、豆瓣、大众点评三组评论语料做了实验。其结果的准确率都基本在90%以上,验证了以上算法的有效性和实用性,为各种互联网应用,不仅仅是微博,提供了情感分析的基础。
其他文献
<正>孩子思想品德的形成,特别是学前幼儿思想品德的形成,必须要经历一个漫长的培养、训练、体验过程。作为幼儿教师的我们应深感肩上"担子"的沉重!我们作为一名幼儿教师,肩负
在黄骅港附近岸段开展了岸线实地调查和潮间带年际监测,并结合历史资料和图鉴对比等手段,对黄骅港两侧岸线变迁及滩面—浅海区形态变化过程及其趋势进行了综合研究。结果显示
目的探讨miR-17在胃癌中的表达及其与临床病理特征的关系。方法提取30例胃癌及癌旁正常胃黏膜组织标本的总RNA,采用茎环逆转录实时定量聚合酶链反应(RT-PCR)方法检测miR-17的
<正>飞跃鞋、百雀羚、海鸥相机……诸多经典国货二度回春的故事,再一次用事实证明了一个道理:坚守传统不是墨守成规,嫁接了传统文化基因又能紧跟消费潮流的品牌,才能赢得更多
采用多官能度环氧对己二胺进行改性,得到了一种无毒、低黏度、适用期长、无色透明的液体固化剂,并利用红外光谱表征其结构。通过差示扫描量热法研究了该固化剂的反应活性与最
目的 探讨乳腺癌中C -erbB - 2及P16的表达与雌激素受体 (ER)、孕激素受体 (PR)之间的关系。方法 应用免疫组化技术对 5 4例乳腺癌的ER、PR、C -erbB - 2、P16表达进行研究
随着我国社会经济的发展,环境污染和生态破坏问题日益突出,能源结构调整势在必行。近年来,贵州省加大煤矿关闭整合力度,然而由于对煤矿废弃地缺乏必要的环境修复措施,区域内
由于生态问题不受地域界限或者文明程度影响,目前已在全球范围内不断出现,危害无法避免,如全球气候变暖导致海平面升高、森林资源滥伐导致荒漠化加剧、物种逐渐减少导致生物
本文对分子标记的特点、标记的主要类型及在作物育种中的研究应用进行了综述,特别叙述了分子标记在水稻育种研究方面的应用。
本篇论文以岳麓书社1987年第1版《曾国藩日记》(三册)为研究对象,该版本依据宣统元年十月中国图书公司印行的手稿本标点,并以台湾学生书局一九六五年影印本《曾文正公手写日记》