论文部分内容阅读
互联网舆情是人们在互联网上对某种社会现象或社会问题的具有一定影响力和倾向性的共同意见,近年来,互联网舆情对政治秩序和社会稳定的影响巨大,深受政府和企业的重视,对它的研究具有重要的意义。与此同时,信息技术和互联网的飞速发展,互联网上的信息也正以爆炸般的速度产生,为了帮助人们从如此海量的舆情信息中快速准确地获得所需要的信息,主题抽取作为一种有效的方法,已经广泛地应用在自然语言处理领域。主题抽取是指从文档中抽取重要的信息来代表文档的中心思想,其中又根据抽取的信息的形式不同,主要分为关键词抽取和自动摘要。关键词抽取是从文档中抽取反映主题内容的词或短语,可以说关键词是表达文档内容主题的最小单位。传统的关键词抽取只统计词的统计特征,而没有考虑文档主题的影响。自动摘要是指抽取准确全面地反映文档中心内容的简洁连贯的句子或短文,与关键词相比更能满足信息获取的需求。传统的自动摘要方法只计算文档的句子的重要性,忽略文档本身主题的多样性。另外,抽取的关键词的质量也会影响到自动摘要的质量。针对当前关键词抽取技术和自动摘要技术的不足之处,本文对其进行深入学习与讨论,包括:1.概述主题抽取方法的研究背景;分别介绍主题抽取相关的中文分词、句子相似度等技术;并深入研究了主题模型,为下一步的主题抽取的改进方法做铺垫;2.分析传统的关键词抽取方法及各自优缺点;提出一种基于词共现模型的TextRank关键词抽取方法,通过FP-growth算法挖掘词之间的共现关系;研究关键词抽取的评价方法;并设计实验,将基于词共现模型的TextRank关键词抽取方法与传统的关键词抽取方法进行比较分析,验证该方法在关键词抽取效果上的改进之处;3.分析传统的自动摘要方法及各自优缺点;提出一种基于LDA和MMR的主题相似度的自动摘要方法,利用LDA反映句子之间的主题相似度,并通过MMR去除摘要句子的冗余;研究自动摘要的评价方法;并设计实验,将基于LDA和MMR的主题相似度的自动摘要方法与传统的自动摘要方法进行比较分析,验证该方法在自动摘要效果上的改进之处。