中文文本倾向性分析研究

来源 :安徽大学 | 被引量 : 8次 | 上传用户:jiaoxuepan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速普及,互联网应用越来越简易,使得上网人数与日俱增。互联网生活呈现出多元化,复杂化的趋势,越来越多的人们开始关注互联网,开始通过互联网来发出自己的声音,而且形式不一,比如,微博,论坛,博客,BBS等。人们通过这些媒体发表自己对其他的人或事件的评价,看法,这些评价看法常常带有明显的倾向性信息,如何让计算机自动准确提取这些有用的倾向性信息,这个问题吸引了大量的研究学者,逐渐就演化成了文本的倾向性分析课题。文本倾向性分析研究目前已经成为自然语言处理领域的研究热点之一。文本倾向性分析具有重要研究意义,在学术领域,商业领域,管理领域等都有着巨大的使用价值。中文文本的情感倾向性研究相对于英文的情感倾向性研究起步较晚,很多问题还需要全方位的研究,中文情感倾向性分析有很多子课题,本文在研究了大量的基础资料后,分别选择了两个子课题,中文句子的情感倾向性识别和中文文本的主客观分类,并且进行了一系列的实验研究。本文的主要工作是:1.研究了中文句子的情感倾向性识别课题中文句子的情感倾向性识别课题的主要研究内容是让计算机可以有效的判断给出的中文句子是褒义还是贬义的,并且给出其倾向性程度。文本倾向性识别的一个重要的基础性工作是句子倾向性识别,从目前的研究论文可以看出,提取实体间关联难度很大,这个问题在主观性文本信息的提取上表现的更加严重。而有针对性的提取倾向性信息的研究,目前进行的还比较少。基于这个问题,本文在综合大量资料的基础上,提出了一种基于情感词语义加权的句子情感倾向性识别方法。本文通过实验验证了该算法的可行性以及有效性。2.研究了中文文本的主客观分类课题人们在买一种产品或者选择一项服务之前,都想在互联网上获得该项产品或者服务的用户评价,以便参考,从而决定是否购买。因此文本的主客观分析是一个非常重要的,具有可观的研究价值的基础性课题。中文文本的主客观分析的主要目的是让计算机可以自动的准确的识别出待分析的中文文本是属于主观文本还是客观文本。只有主观性的文本才能体现出某种情感倾向信息。该课题也可以看做是一个特殊的分类问题,分类的依据是文本是否包含情感倾向。由于中文语言的多样性,语义的丰富性,主客观句的特征并不明显,基于统计的分析方法难以很好的反映中文的语义内涵,而基于语义的分析方法需要大量的专家知识,并且存在着主客观区分知识难以抽取,难以表示的问题。基于这个问题,本文提出了一种基于语义的TriPos模式的中文文本主客观分析的方法。本文通过实验验证了该算法的可行性以及有效性。本文的主要创新点是:1.提出了一种基于情感词语义加权的句子情感倾向性识别方法该方法采用遗传学基因的思想,把情感词看做基因,在不同的上下文环境中呈现出不同的情感倾向性,首先确定情感词的静态显性,界定情感词的辖域,构建情感词分析器,在情感词辖域内针对可以影响情感词情感倾向性的各种类型的因素进行分析,得出最终的情感词情感倾向,进而采用相应句式的分析方法得出整个句子的情感倾向性。从实验的结果来看,本文提出的基于情感词语义加权的句子情感倾向性识别方法在褒义和贬义句子的倾向性识别上分别取得了不错的判全率和判准率,并且F值能达到0.95以上,充分说明本文提出的算法的有效性。2.提出了一种基于语义的TriPos模式的中文文本主客观分析的方法该方法通过语义和规则相结合的处理方式对文本进行处理。首先通过对大量的标注语料的分析,使用卡方统计方法,获取一个TriPos的语义模式库,然后利用这个语义模式库对待分析文本进行模式匹配,从而计算得到文本的主观性强度,为了进一步提高分析结果的准确性,本文在模式匹配之后,使用制定好的易于应用的主客观特征分析的规则对前一步计算的结果进行二次处理,最后通过加权计算得到文本的最终主观性程度,然后按照设定的阈值,通过比较得到的主观性程度与阈值的关系,确定待分析文本是否为主观性文本。实验显示,在相同的语料下,把该算法得到的实验数据与同行提出的算法得到的数据进行了对比,从而有力的证明了该方法是可行的。
其他文献
碰撞检测算法作为虚拟现实(Virtual Reality,VR)领域中的一个重要组成部分,其主要作用是判断虚拟空间中的两个物体是否共享了部分空间。随着VR及其子领域增强现实(Augmented Re
无论是科研还是学习人们都需要通过网络去寻找最新的专业信息和新闻动态,但信息的爆炸式增长,也让人们越来越难以从信息海洋中快速获取所需信息。一方面是因为网络信息量与日
本文对无标度网络的研究可以大致分为三个密切相关却又逐层深入的方面:通过实证量化网络的统计性质;构建对应的网络模型来研究这些统计性质;在已知网络拓扑结构及其构建规则的基
在以往嵌入式系统主要在控制领域应用,在数据存储方面的要求并不是很高。但随着信息技术的不断发展,嵌入式技术在诸多领域得到广泛应用,嵌入式系统中要存储的数据信息量不断
随着经济的发展,软件的规模越来越大。仅仅依靠原来的开发方式已经无法满足社会的要求。传统的作坊式开发方法费时费力,存在大量的重复劳动,软件开发的速度已经完全跟不上社
随着虚拟环境(Virtual Environment,VE)技术研究的深入以及语义Web技术的广泛应用,语义虚拟环境(Semantic Virtual Environment)的研究已成为虚拟环境领域一个崭新的研究方向
无线传感器网络作为多学科相互交叉的新兴的研究领域,可以实时的监测和采集网络分布区域内各种监测对象的信息,并将这些信息发送给远方的观察者,来实现对目标对象的跟踪与监
随着计算机技术的高速发展,数字图像信息的应用面越来越广,数字图像处理技术也随之得到了空前的发展和更广泛的应用。图像缩放作为图像处理技术的一种,在实际应用中具有重要
目前,移动应用程序大多需要适配多个物理平台(Android&iOS)。由于各个平台在技术层面的差异性,同一应用必须针对不同平台进行定制,导致了软件设计与实现过程中的多遍重复式开
传统的关系数据库一般采用关系模型作为其信息数据的组织方式,而关系模型是以布尔逻辑和精确的数据工具为基础的,它不能够直接表示更不能够处理模糊的、具有不确定性的数据信息