【摘 要】
:
随着web2.0的快速发展,用户变成了互联网内容贡献的主力,大量用户产生的主观性文本充斥了人们的视野。基于这些主观性文本的情感分析成为了近些年的研究热点。情感词典的构建
论文部分内容阅读
随着web2.0的快速发展,用户变成了互联网内容贡献的主力,大量用户产生的主观性文本充斥了人们的视野。基于这些主观性文本的情感分析成为了近些年的研究热点。情感词典的构建是情感分析的基础工作,然而构建情感词典时存在不平衡语料问题,所以,针对这个问题的跨领域情感词典构建研究也正在获得越来越多人的关注。目前的跨领域情感词典构建方法大都需要很多的人工标注信息,这些标注信息需要投入大量的人力和时间才能得到,而且还不够可靠,针对这个问题,提出一种新的基于AF模型的跨领域情感词典构建方法,该方法仅需要源领域中有词语级的标注信息,就可以利用词语之间的上下文相似度来判断目标领域中词语的倾向性,从而构建情感词典。此构建方法主要分为三个内容,第一个内容是语料数据的预处理,主要对语料中的句子进行断句,分词等处理;第二个内容是源领域和目标领域AF模型的建立,将两个领域语料的预处理结果建立成AF模型;第三个内容是目标领域情感词倾向性的判定,此为所提出的构建方法的核心内容,其中基于AF模型提出了两个新的统计量——领域差异度和相对亲和度。领域差异度用来区分领域相关情感词和领域无关情感词,相对亲和度用于计算两个领域间的情感词的上下文相似度。在这两个统计量的基础上,结合建立的模型,给出一个倾向性判定算法。通过倾向性的判定结果,将判断出的正向情感词和负向情感词结合在一起就构成了目标领域的领域情感词典。最后,在COAE2011提供的评测数据基础上,将所提出的词典构建方法与SO_PMI方法、以及融合上下文的构建方法进行对比分析,验证本方法的有效性。除此之外,通过实验不同参数对所提出构建方法的结果影响,来分析此跨领域词典构建方法的特性。
其他文献
无线传感器网络结合了计算技术、网络技术和无线通信技术,是一种新型信息获取和处理的技术,已经广泛应用到经济和军事各个领域。无线传感器网络主要特性有能量有限、计算存储
针对当前自然计算模型中普遍存在的全局与局域搜索过程之间的平衡问题,本文通过借鉴自然界下雨及雨滴受重力影响沿地形垂直径向局部流动的动态过程;探讨了一种雨滴计算模型的
随着无线传感器网络在各个领域的快速发展和广泛应用,当前大多数网络协议已不能满足很多领域对节点低能耗及低延时的要求。因此如何提高传感器节点能效,成为当前迫切需要解决的
互联网和电子商务的发展,产生了大量的数据,从而导致网络资源的信息过载。当搜索引擎技术已经无法解决信息过载问题时,推荐系统应运而生。常见的推荐系统有:协同过滤推荐、基
人脸识别技术是计算机视觉和模式识别等领域非常活跃的一个研究方向。传统的人脸识别算法多假设人脸数据集具有全局的线性结构;而随着数据分析技术的发展,人们发现高维数的人脸
随着网络的日益发展和普及,信息量爆炸性地增长,每一秒都会产生大量的新的数据并传播于网络。BBS应运而生并逐步发展渐成为人们发表言论、表达思想的重要平台。如何通过对BBS
纹理图像分割在遥感、医学图像处理、计算机视觉及基于基于内容的图像检索等许多应用领域中具有广泛的应用。纹理分割是图像处理过程中一个重要步骤,是实际应用中图像分析的
光线跟踪是生成真实感图形的主要算法之一。本文总结对比了CPU与GPU光线跟踪算法优劣,讨论了现有基于GPU光线跟踪加速算法中均匀网格、KD-Tree及层次包围盒(BVH)的遍历方法,并
随着信息和网络技术广泛而深入地渗透到商业、金融、科研、教育、军事以及人们日常生活的各个领域,网络和信息安全对人们生活和国家安全的影响越来越重要。防火墙技术是较早发
用传统遗传算法处理规模越来越大,搜索空间越来越复杂的优化问题时,由于需要较多的个体数量和大量的计算,进化速度缓慢难以达到适时的要求,所以遗传算法传统的串行处理方式就显得