论文部分内容阅读
随着互联网的飞速发展,特别是Web2.0技术的逐渐普及,广大网络用户已经从过去单纯的信息获取者变为网络内容的主要制造者。尤其是自2009年中文微博诞生以来,用户使用互联网的习惯随之改变,从而带来了许多新的研究问题,其中中文微博的观点挖掘与倾向性分析技术渐渐成为许多专家学者的研究热点,获得了越来越多的关注。同时,随着自然语言处理技术、机器学习技术和大数据技术的不断发展和成熟,再次将中文微博的观点挖掘与倾向性分析研究推向高潮。中文微博平台的出现催生了许多新的应用需求,比如微博内容中评价对象抽取及其情感倾向性判定、微博内容的观点倾向性分析、查询主题相关的观点信息检索结果等。然而,由于中文微博的诸多特性,比如内容短、口语化严重、书写不规范、语句结构杂乱、带有转发关系等,使得传统的观点挖掘与倾向性分析技术已经不能完全满足对微博数据处理的需求。因此,本文针对这种新的应用需求,重点研究面向中文微博的情感词情感强度量化计算、序列化评价搭配联合抽取、观点倾向性判定以及观点检索等观点挖掘与倾向性分析关键技术,探索新的、适合中文微博的研究思路和方法,进一步提高观点挖掘与倾向性分析的准确性和实用性。论文的主要研究内容和创新成果包括以下四个部分:(1)通过分析情感词的情感强度模糊性特点,研究情感词的情感强度量化技术。基于情感词分类思想,提出基于正态分布的基础情感词情感强度量化计算方法和基于组词分类的复合情感词情感强度量化计算方法,实验结果表明,本文方法较大地提高了不同组词类型情感词的情感强度量化计算性能,计算结果更加贴近人们的主观判定。(2)通过分析中文微博评价对象与评价词语的特点,研究评价对象与评价词语的序列化评价搭配联合抽取技术。利用评价对象和评价词语的词法、句法、语义以及位置等特征,提出基于多特征的序列化评价搭配联合抽取方法。创新性地利用微博转发关系特性,提出基于转发关系的隐性评价搭配联合抽取方法。实验结果表明,评价搭配识别性能得到了较好的提升。(3)中文微博的诸多特性使其观点倾向性分析存在诸多难点。针对微博数据表达观点的情感搭配特点,构建情感搭配规则,提出基于情感搭配规则的微博观点倾向性判定方法。同时结合微博的其它诸多特性,进一步提出多特征融合的支持向量机观点倾向性判定方法,并利用微博转发关系特性和松弛标记技术对其判定结果进行优化计算,较大程度地提升了微博观点倾向性判定性能。(4)设计实现了一个面向中文微博的观点检索系统,该系统有机集成了情感强度量化技术、评价搭配抽取技术和观点倾向性判定技术,实现了系统内部核心功能模块的集成和检索结果的友好可视化展示,并初步应用于某部某项目之中,使研究成果更好地与实际应用相结合。