基于词项共现关系图模型的中文观点句识别研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:samdragon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的应用和普及,“以用户为中心到用户参与设计”的观点已经成为当今互联网所倡导的理念。论坛、贴吧、博客和微博等各类新型媒体为广大用户提供了更加自由交流的平台,越来越多的用户通过互联网来表达个人观点、传播思想和交流情感。这些蕴含个人观点的由用户生成的数据信息(User-generated content,简称UGC)隐藏着巨大的商业价值和社会价值,从而导致如何从海量的文本中准确地抽取和识别观点句具有重要的理论价值和现实意义。目前,主流的观点句识别方法采用向量空间模型(Vector Space Model,简称VSM)来表示文档,即把每篇文档表示成一个词项向量或特征向量。然而,这种文档特征向量的表示方法基于文档中词项间强独立性假设,并未考虑词项与词项之间的顺序和依赖关系。鉴于此,本文提出了一种新型的基于词项共现关系的图模型方法来表示文档,并将其应用于中文观点句识别中。该方法通过构建文档中词项共现关系有向图模型,利用词项与词项之间的共现性和句法关系来描述词项在观点句和非观点句集合中的分布差异性。该方法能够有效地捕捉到中文观点句中的语义信息。同时,与基于向量空间模型的特征值计算方法不同,该方法将图模型中的词项入度值计算方法和信息检索中复杂的特征值计算方法相结合,从而更加有效的计算出图模型中词项所具有的情感值大小。实验结果证明,本文提出的中文观点句识别效果显著优于现有的代表性的方法。本文的工作主要体现在以下三个方面:1)首先,本文分别构建了观点句集和非观点句集的词项共现关系有向图,用图模型对词项的共现性、语义关系和分布差异进行显示的描述;2)其次,本文将图模型中的简单有效的词项入度值计算和信息检索中复杂的特征值计算方法有效结合,从而更有效的计算出图模型中词项所具有的情感值大小。同时,本文训练一个支持向量机(Support Vector Machine,简称SVM)观点句识别分类器,并与目前主流的观点句识别方法进行比较,从而验证本文提出的方法的有效性;3)最后,本文对图模型中的滑动窗口、有向图构建方向和相关参数等进一步优化,使得观点句的识别分类器性能得到进一步的提升。
其他文献
机群系统的迅速发展使其成为并行计算系统中令人瞩目的一族。机群系统的异构性、开放性和网络延迟特性给网络并行计算带来了新的挑战。其中,任务调度策略是影响机群系统性能
移动自组网(Mobile Ad-hoc NETworks,MANETs)是独立的网络自治系统,不依赖于任何预先架设的网络设施,是当前网络与通信领域研究的热点。然而,网络中节点的任意移动和网络拓扑
随着Internet和Web技术的广泛应用,越来越多的企业迫切需要高效地构建自己的Web应用系统。近年来,Sun公司的J2EE平台凭借Java语言的诸多特性和企业软件开发中的种种经验,成为
模型驱动架构(MDA)这种软件开发方法能够直接通过建立的模型生成可用的软件产品。它是包括一系列建模规范、变换规则和其他相关标准的体系结构。在MDA中,软件开发过程由模型
互联网的诞生和发展,深刻的改变了人们的生活,激发并促进了人类和社会的进化。互联网上资源为用户提供大量的信息,大大方便信息的获取和整合,但是这种传播的便捷性同时也大大
粒度计算的思想起源于上世纪70年代末,它是模仿人类思考问题的方式,正如张钹院士和张铃教授所说:“人类智能的一个公认的特点,就是人们能从极不相同的粒度上观察和分析同一问
传统的信息安全策略已经不能适应现在社会对安全的要求,可信技术的发展是计算安全发展的要求,也越来越受到广泛的重视。对于网络当中的结点的可信性进行评估就显得非常重要;如
油气管道是能源运输的大动脉,管道的安全运行对国家能源战略的实施,维护社会和谐稳定都具有十分重要的意义。目前国内尚无全天候、长距离、实时预警的管道监测技术。油气管道
在信息爆炸的时代,随着电子文本的广泛应用,海量数据给人们快速有效地获取有用信息及相关知识带来了严峻的挑战,特别是对包含领域内大量成果和实验发现的文献记录的信息获取。文
随着我国燃气使用的普及,特别是在城镇,基本都使用燃气作为燃料。燃气成为居民家不可缺少的能源。但现在主要使用的是以IC卡为主导的燃气表系列,燃气公司无法通过IC卡表系统实时