互联网舆情主题抽取方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:chanck5800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网舆情是人们在互联网上对某种社会现象或社会问题的具有一定影响力和倾向性的共同意见,近年来,互联网舆情对政治秩序和社会稳定的影响巨大,深受政府和企业的重视,对它的研究具有重要的意义。与此同时,信息技术和互联网的飞速发展,互联网上的信息也正以爆炸般的速度产生,为了帮助人们从如此海量的舆情信息中快速准确地获得所需要的信息,主题抽取作为一种有效的方法,已经广泛地应用在自然语言处理领域。主题抽取是指从文档中抽取重要的信息来代表文档的中心思想,其中又根据抽取的信息的形式不同,主要分为关键词抽取和自动摘要。关键词抽取是从文档中抽取反映主题内容的词或短语,可以说关键词是表达文档内容主题的最小单位。传统的关键词抽取只统计词的统计特征,而没有考虑文档主题的影响。自动摘要是指抽取准确全面地反映文档中心内容的简洁连贯的句子或短文,与关键词相比更能满足信息获取的需求。传统的自动摘要方法只计算文档的句子的重要性,忽略文档本身主题的多样性。另外,抽取的关键词的质量也会影响到自动摘要的质量。针对当前关键词抽取技术和自动摘要技术的不足之处,本文对其进行深入学习与讨论,包括:1.概述主题抽取方法的研究背景;分别介绍主题抽取相关的中文分词、句子相似度等技术;并深入研究了主题模型,为下一步的主题抽取的改进方法做铺垫;2.分析传统的关键词抽取方法及各自优缺点;提出一种基于词共现模型的TextRank关键词抽取方法,通过FP-growth算法挖掘词之间的共现关系;研究关键词抽取的评价方法;并设计实验,将基于词共现模型的TextRank关键词抽取方法与传统的关键词抽取方法进行比较分析,验证该方法在关键词抽取效果上的改进之处;3.分析传统的自动摘要方法及各自优缺点;提出一种基于LDA和MMR的主题相似度的自动摘要方法,利用LDA反映句子之间的主题相似度,并通过MMR去除摘要句子的冗余;研究自动摘要的评价方法;并设计实验,将基于LDA和MMR的主题相似度的自动摘要方法与传统的自动摘要方法进行比较分析,验证该方法在自动摘要效果上的改进之处。
其他文献
结合井场经常会产生硫化氢气体,对工作人员及现场设备造成极大危害。设计出一种实时监测硫化氢气体是否超标、是否达到危险浓度、是否需要报警疏散人员的检测防护系统,此系统
自改革开放以来,经济全球化以及科技信息化的发展趋势日益加深,我国的综合国力得到明显提高,各行各业的发展也日新月异。在此背景下,档案管理越来越受到人们的关注,逐渐占有重要地位,但是在发展的同时,其也存在着一些问题和不足,传统的管理模式已经不适应时代的发展,需要不断探索新的管理模式,以满足信息时代的发展需求。因此,档案管理信息化应运而生,并迅速成为档案管理未来发展的主要内容。文章主要基于档案管理信息化
<正>6月8日过后,当那座压在你身上的大山如被施了魔法一样消失——高考终于结束了.肆意的狂欢就交给街边的小餐馆与KTV,而文艺式的狂欢就交给小美吧,我们负责安利这些电影,你
期刊
随着社会经济的不断发展,金属矿产的需求量越来越大,只有推动金属矿产地质勘查技术的不断发展,才能缓解当前我国金属矿产资源紧缺的压力,进而有效促进我国的经济和社会获得可
某型航空发动机配装我国先进战机,该型发动机独有的防喘功能,使战机生存能力大大增强。本文以某型发动机防喘检查时出现的故障为出发点,通过研究防喘系统组成和原理,针对地面
如何变资源优势为竞争优势,促进文化与旅游深度融合,形成互促互进、互融共赢的发展态势,是贵州文化和旅游业界一直在思考的问题。今年3月,第十三届全国人民代表大会第一次会议通
导学案是许多一线教师贯彻新课程理念、勇于探索新的教学模式的成果,这一模式在教学中得到了比较广泛的应用,但作为一种新生事物,在实际的教学实践中仍然存在着许多问题。本