基于文本聚类技术的网络舆情分析系统的研究与应用

来源 :天津工业大学 | 被引量 : 3次 | 上传用户:hxzhou618
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来互联网技术飞速发展,由于网络平台的平等性、开放性和隐蔽性,使得人们更习惯于利用网络平台表达自己对社会事件的意见、看法、态度和情绪等,这既可能对事件发展产生积极导向,也可能产生负面、消极的影响。因此对互联网舆情信息进行有效挖掘,对了解民众意愿、引导舆论观点、维护社会稳定有着重要的现实意义。网络舆情分析技术是面向自然语言的数据挖掘技术。数据挖掘技术本质上就是从大量无规则的数据中挖掘出隐藏的规律和有意义的信息,相比于传统的数据挖掘技术,网络舆情分析技术更强调对于文字的处理,如何将自然语言转换为计算机可识别的语言,如何对文本数据进行语义分析,如何更有效地对文本数据进行处理,这些都是网络舆情分析技术要解决的问题。本文的主要研究内容是文本数据挖掘技术在舆情分析中的实际应用。通过对文本挖掘方法进行研究,根据前人理论,提出一套完整的文本数据分析流程,实现对于自然语言信息的数据挖掘。建立舆情分析系统的整体架构,设计系统功能与数据库结构,最终实现对网络舆情信息的分析与利用。文本挖掘由文本结构化及文本聚类两部分内容组成,主要研究研究文本分词、文本表示、特征选择、相似对比较等内容。本文选择中国科学院的分词系统(ICTCLAS)对语料进行分词,利用向量空间模型(VSM)进行文本表示,采用TFIDF方法对分词后的语料进行特征选择,采用向量余弦夹角作为计算文本相似度的算法采用K-means算法进行文本聚类,分析K-means算法存在的问题并尝试对算法进行改进并予以实现。根据以上的研究基础设计了舆情分析系统。系统由采集子系统、分析子系统、展示子系统三部分构成,数据库包括基础数据库、分析数据库、展示数据库等,可对文本数据集进行有效的语义分析与挖掘处理,实现了舆情预警、事件中心、人物中心、微博中心、简报系统等功能,满足对网络舆情信息分析的设计初衷。
其他文献
当前,现代学校规训制度下的书院教化意义缺失,学生生活场域异化为外在于其整全生命的物理空间,书院文化空间建设亟待加强。重建书院文化空间,理论上应“再嵌入”传统文化基因
基于报童模型,考虑由一个销售商、若干具有风险偏好行为的策略消费者和无穷多个廉价消费者构成的供应链模型。通过比较引入快速反应前后销售商期望利润的变化情况,发现当快速
近年来,国产动漫书、动画片、动画大电影等不断涌现,国内动画产业蓬勃发展,也出现了一些质量较高的作品。中国动画产业不断成长,但在社会经济发展的新时期,面临着新的机遇和
国立大学法人化改革是一个“牵一发动全身”的系统性工程,涉及的利益主体多元化、矛盾纠葛错综复杂,并不能简单地一蹴而就。通过对韩国国立大学法人改革的法理学探讨、公私法
创新高等教育大学生学习能力的评估方式与内容,日益成为国际高等教育改革与发展的重要课题。由德国联邦教育及研究部资助开发的“高等教育能力建模与评估”项目(KoKoHs),主要
在新课程理念的影响下,全国中小学都在进行着如火如荼的教学改革,高中物理课堂教学在新理念的影响下,也发生了巨大的变化。如今社会经济飞速发展,人们的生活的节奏也越来越快
将配图文字翻译成英文,是土楼摄影文本对外宣传土楼文化的有效手段之一,但是误译会造成译本读者对土楼文化的误解或难解,从而影响宣传效果。框架理论将框架分为语言框架和文
近日,开磷集团建材总公司在息烽开磷城4栋高层建筑裙楼楼板施工中首次采用空腹板新技术,铺设面积8700m2,使用磷石膏废渣制成的石膏模盒9000余块。
目的 :建立RP HPLC法同时测定活血合剂 (丹参、当归、赤芍、丹皮、黄芪和鸡血藻 )中阿魏酸、芍药苷的含量。方法 :采用反相高效液相法。色谱条件 :阿魏酸 :ZORBAX ODS色谱柱
以SSCI期刊《South African Journal of Education》(SAJE)2006-2017年所载文献为研究对象进行文献计量学和知识图谱可视化分析,选取研究机构、作者、关键词、被引文献、研究