基于主题模型的网络舆情监控研究

来源 :南华大学 | 被引量 : 6次 | 上传用户:lb_super
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展让我们的生活世界成为了地球村,网络的便捷性使人们每时每刻都能够从网络上获取信息。随着Web2.0技术的应用,人们不再只是简单的获取网络上的信息,而是成为了网络消息的创造者,同时还能够通过网络发表自己的观点看法,表达自己的情感。网络上的信息爆炸性增长,人们在面对如此多的信息时可能会不知所措,同时这也给我们的政府提出了一个挑战。由于网络的实时性,信息的传播速度非常快,一件事情很快就能够被大范围的网民所知道,尤其是一些关于社会民生的事件,更是容易引起广大网民的关注;还有一些别有用心的人,故意在网络上散布一些虚假、敏感的信息,利用网络水军进行大范围的传播,这很容易导致网络舆情的发生。而这些舆情信息对于社会的和谐稳定是非常不利的。因此需要能够有效的对网络上的舆情信息进行监控,实时掌握网络舆情信息的动态是非常有必要的。针对网络舆情监控,国内外都进行了大量的研究。国外对于网络舆情认识比较早,且非常重视,现在已经形成了比较成熟的监控机制和监控系统。但国内起步较晚,近年来才引起政府的重视,也成为了学者研究的热点问题。国内经过这几年的努力也取得了一定的研究成果,出现了一些网络舆情监控系统用于对互联网上的舆情信息进行实时监控,但目前的舆情监控系统中使用监控技术主要有两种,一种是基于敏感词匹配的方法,系统中提前设定一些敏感词,通过对网络上信息进行检索匹配,如果含有这些敏感词的信息被视为舆情信息;另一种就是基于词频统计的文本分类聚类的方法。这两种方式都取得了一定的效果,但这两种方式都存在着一定的缺陷,它们都不是建立在对文本内容语义信息理解的基础上进行的,以至于在准确发现舆情信息方面存在不足。因此,本文对如何提高舆情信息发现准确度方面进行了深入研究,尝试使用目前比较成熟的主题模型应用于舆情信息监控系统当中,利用主题模型在语义挖掘上的优势填补上述传统方法中的不足。本文主要内容为:1)详细分析了传统舆情监控系统中所使用的技术,如信息采集、信息预处理、中文文本分词、文本表示模型、文本聚类等。同时研究了基于词频统计的舆情分析的不足。2)提出了基于LDA主题模型的舆情信息分析方法,通过对文本集进行LDA主题建模,发现文本中的隐含主题,提高舆情分析的准确度。3)基于理论分析,设计并实现了一个网络舆情监控系统,系统实现了舆情搜索,每日舆情,热点舆情信息等功能。
其他文献
时间戳为用户数据提供一个不可更改、不可伪造,且具有可鉴别性的时间标记,防止用户事后抵赖行为,尤其是为电子文件或电子交易提供准确的时间证明,在电子商务和知识产权保护中
本论文着重研究无线mesh网络中基于蚁群算法解决多约束QoS问题。无线mesh网络(Wirless Mess Network)简称WMN,是一个新型的无线通信网络。无线mesh网具有自组织性和自愈的特
随着社会竞争力的日益激烈,在较少的投资或不投资的情况下改善操作人员作业绩效是提高企业生产效率,增强企业在国内外竞争力的有效途径。应用工业工程技术中最基础的工作研究
随着通信技术和计算机技术的飞速发展,自动信息处理已成为人们获取大量信息不可缺少的工具文本分类作为自动信息处理的重要研究方向,有着广泛的应用前景粗糙集理论和神经网络
作为未来网络融合的基石,IMS正在成为固定和移动网络的新一代融合架构,而异构网络的融合和互通会引发很多新的安全问题。从安全需求角度分析,目前IMS在安全机制方面还有待完
本文综合运用包括图像平滑、图像分割、图像识别、图像修复等相关数字图像处理技术,针对数字视频质量损伤中的斑点去除和马赛克检测两个问题,展开了相应的研究。首先,本文分
移动机器人是一种能够在工作环境中自主移动并完成预定任务的智能系统,是机器人学和智能控制的一个重要研究领域,在工业、农业、民用以及军事等领域具有广泛的应用前景。在移
消息中间件是一种由消息传送机制或消息队列模式组成的中间件技术,利用高效可靠的消息传递机制进行平台无关的数据交流,并基于数据通信来进行分布式系统的集成。作为一个中间
近些年来,随着中国社会的发展以及高等教育水平的提高,每年毕业的大学生人数越来越多,就业成为当今大学毕业生面临的重要挑战之一。人才资源是生产力中最为活跃、最有价值的、最
随着中国加入WTO,我国各个行业的竞争也日趋激烈。企业保有客户留住利润的难度越来越大。如果企业还仅仅依靠产品本身似乎很难逃脱失败的命运。因此越来越多的企业将重点从“