论文部分内容阅读
随着Web2.0的应用和普及,“以用户为中心到用户参与设计”的观点已经成为当今互联网所倡导的理念。论坛、贴吧、博客和微博等各类新型媒体为广大用户提供了更加自由交流的平台,越来越多的用户通过互联网来表达个人观点、传播思想和交流情感。这些蕴含个人观点的由用户生成的数据信息(User-generated content,简称UGC)隐藏着巨大的商业价值和社会价值,从而导致如何从海量的文本中准确地抽取和识别观点句具有重要的理论价值和现实意义。目前,主流的观点句识别方法采用向量空间模型(Vector Space Model,简称VSM)来表示文档,即把每篇文档表示成一个词项向量或特征向量。然而,这种文档特征向量的表示方法基于文档中词项间强独立性假设,并未考虑词项与词项之间的顺序和依赖关系。鉴于此,本文提出了一种新型的基于词项共现关系的图模型方法来表示文档,并将其应用于中文观点句识别中。该方法通过构建文档中词项共现关系有向图模型,利用词项与词项之间的共现性和句法关系来描述词项在观点句和非观点句集合中的分布差异性。该方法能够有效地捕捉到中文观点句中的语义信息。同时,与基于向量空间模型的特征值计算方法不同,该方法将图模型中的词项入度值计算方法和信息检索中复杂的特征值计算方法相结合,从而更加有效的计算出图模型中词项所具有的情感值大小。实验结果证明,本文提出的中文观点句识别效果显著优于现有的代表性的方法。本文的工作主要体现在以下三个方面:1)首先,本文分别构建了观点句集和非观点句集的词项共现关系有向图,用图模型对词项的共现性、语义关系和分布差异进行显示的描述;2)其次,本文将图模型中的简单有效的词项入度值计算和信息检索中复杂的特征值计算方法有效结合,从而更有效的计算出图模型中词项所具有的情感值大小。同时,本文训练一个支持向量机(Support Vector Machine,简称SVM)观点句识别分类器,并与目前主流的观点句识别方法进行比较,从而验证本文提出的方法的有效性;3)最后,本文对图模型中的滑动窗口、有向图构建方向和相关参数等进一步优化,使得观点句的识别分类器性能得到进一步的提升。