论文部分内容阅读
随着互联网以及通讯技术的飞速发展,以互联网为基础的新型舆情传播媒体逐渐代替传统媒体,成为人们获取与传播舆情信息的主体。由于互联网的实时性、高效性,舆情信息往往呈爆炸式增长,采用传统方式进行人工舆情分析预警难以满足当前需求,因此研究网络舆情监测相关技术,构建监测系统进行自动分析预警,成为当前研究热点。本文研究了舆情监测和分析中的关键技术,主要内容如下:(1)研究舆情监测中的特征提取技术,提出了一种基于词汇网络的文本特征提取方法。该方法中,通过提取文本特征词频、文本特征相关性及特征语义相似度等结构性信息,将文本数据以图的形式表示,采用网络关键节点发现技术,抽取图中关键节点作为文本特征。实验证明,通过该方法获得的文本特征向量具有更好的聚类特性。(2)研究了特征编码技术,利用组稀疏深度学习对高维文本特征向量降维。并改进Single-Pass曾量聚类模型,以覆盖率作为特征相似度计算方法,并在话题权值计算中提出备选特征向量,使其适用于深度学习降维后的特征向量。(3)设计并实现了网络舆情监测系统原型,系统基于以上研究结果,实现网络热点话题的发现与跟踪,分析话题中参与者的情感,以及实现话题传播预警。本文通过研究舆情监测关键技术,针对舆情监测中文本非结构化引起的特征提取不准确以及热点分析中特征向量高维稀疏带来的高复杂度问题,提出了词汇网络特征提取及基于深度学习网络降维的增量聚类方法,设计并实现一个网络舆情监测系统原型。