论文部分内容阅读
近年来互联网技术飞速发展,由于网络平台的平等性、开放性和隐蔽性,使得人们更习惯于利用网络平台表达自己对社会事件的意见、看法、态度和情绪等,这既可能对事件发展产生积极导向,也可能产生负面、消极的影响。因此对互联网舆情信息进行有效挖掘,对了解民众意愿、引导舆论观点、维护社会稳定有着重要的现实意义。网络舆情分析技术是面向自然语言的数据挖掘技术。数据挖掘技术本质上就是从大量无规则的数据中挖掘出隐藏的规律和有意义的信息,相比于传统的数据挖掘技术,网络舆情分析技术更强调对于文字的处理,如何将自然语言转换为计算机可识别的语言,如何对文本数据进行语义分析,如何更有效地对文本数据进行处理,这些都是网络舆情分析技术要解决的问题。本文的主要研究内容是文本数据挖掘技术在舆情分析中的实际应用。通过对文本挖掘方法进行研究,根据前人理论,提出一套完整的文本数据分析流程,实现对于自然语言信息的数据挖掘。建立舆情分析系统的整体架构,设计系统功能与数据库结构,最终实现对网络舆情信息的分析与利用。文本挖掘由文本结构化及文本聚类两部分内容组成,主要研究研究文本分词、文本表示、特征选择、相似对比较等内容。本文选择中国科学院的分词系统(ICTCLAS)对语料进行分词,利用向量空间模型(VSM)进行文本表示,采用TFIDF方法对分词后的语料进行特征选择,采用向量余弦夹角作为计算文本相似度的算法采用K-means算法进行文本聚类,分析K-means算法存在的问题并尝试对算法进行改进并予以实现。根据以上的研究基础设计了舆情分析系统。系统由采集子系统、分析子系统、展示子系统三部分构成,数据库包括基础数据库、分析数据库、展示数据库等,可对文本数据集进行有效的语义分析与挖掘处理,实现了舆情预警、事件中心、人物中心、微博中心、简报系统等功能,满足对网络舆情信息分析的设计初衷。