论文部分内容阅读
互联网是人们获取信息和传递信息的主要载体,海量的各种类型的数据在网络上形成一个极其丰富的信息源。随着互联网的迅速发展,互联网舆情的研究面临着新的问题和挑战。互联网舆情体现了大多数网民对网络突发事件集中和真实的反映。因此利用互联网自身的信息触角,发现处于“未然态”的各种危机因素,建立起完善的网络舆情检测系统势在必行。网络舆情检测通常分为网络异常检测和常规趋势检测两方面。针对网络异常检测,本文采用数据流高频项检测技术,提出了全新的小波集摘要数据结构和改进的突变检测算法,并在此基础上进行了必要的关联分析;针对常规趋势检测,本文参考了相关领域现有的指数体系,提出了层级互联网舆情指数这一全新的概念。考虑到对中文单词进行聚类的复杂性,本文首先对所采集的关键词语料集进行了必要的分词,在此基础上,采用人工分类、类内高频词汇统计与聚类相结合的方法,从中统计出高频词汇,定义为舆情关键词。在此基础上,针对所选的舆情关键词进行频度曲线绘制,针对关键词频度曲线进行必要的突变分析和关联分析。针对关键词频度曲线的突变性突发,采用小波变换与滑动窗口技术相结合的方法,扩大了可分析数据的范围。在对传统的突发检测(Burst Detection)算法进行改进的基础之上,提出了改进的突变性突发检测算法,并对算法进行了必要的性能评价。同时,对所选择的舆情关键词做进一步的关联分析,为舆情指数体系的建立提供必要的支持。最后,参考现有的指数体系,通过与现有的社会稳定指数进行比较,给出层级互联网舆情指数的定义形式,并给出了互联网舆情指数系统的原理性结构。