网络舆情信息挖掘关键技术研究与应用

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:Ricky_C
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,越来越多的人通过网络来表达自己的意见、想法、情绪和态度,其中既包括对事件的发展有着正面、积极作用的信息,也包括一些负面、消极的信息。同时,网络平台的开放性、直接性和隐蔽性使得网络舆论越来越重要地影响人们的意识形态。因此,对大量舆情信息的及时有效挖掘,对维护社会稳定、促进国家发展具有重要的现实意义。网络舆情信息挖掘与自然语言处理技术密切相关。受限于自然语言处理技术水平,传统的网络舆情信息挖掘,主要为话题识别的相关内容,而对舆情的情感因素关注较少。近年来,浅层语义分析开始出现,并在相关应用研究中体现出相对词性标注、句法分析更为智能实用的优势。浅层语义分析是一种简化了的语义分析形式,以动词为中心对句子意义进行了形式化表示。结合相关自然语言处理技术,基于对现有舆情信息分析算法的对比分析,本文对舆情信息挖掘技术进行了研究与实验,并将其成果应用在网络舆情监控分析系统中。本文主要内容有:(1)自然语言处理技术介绍。考虑到自然语言处理技术在网络舆情信息挖掘中的重要作用,本文在第2章对该技术的关键部分进行了简述。(2)舆情热点话题识别技术研究。基于ICTCLAS分词与词性标注,提出一种结合文本关键词提取和文本聚类的热点话题识别方法。舆情信息的即时性导致未登录词分词错误率较高,利用词语共现概率对分词结果进行拼接,能有效改善未登录词分词性能。文本关键词提取则将词语位置权重信息纳入考虑范畴。(3)舆情文本倾向性分析技术研究。结合语义角色标注一种浅层语义分析和情感词库建设,实现文本倾向信息挖掘。通过对语义角色标注样本的统计分析,得到角色-特征性概率表和角色-情感性概率表,为角色抽取顺序选择提供数据支持。情感词库建设采取人工标注和自动扩充相结合方式,通过对基于字的情感词倾向计算的实验,得到一种改进后的情感词库自动扩充方法。(4)舆情监控分析系统设计与实现。根据网络舆情信息的特点,提出系统总体框架,并对系统主要模块进行了简要介绍。本文所涉工作在网络舆情监控分析系统中得到应用,可有效辅助舆情监控,减少人为干预,必将在未来的网络信息管理中发挥积极的效益。
其他文献
基于机器视觉的标记检测方法在工业控制、农业生产、国防建设等领域内都有广泛的应用,但在医疗领域的应用相对比较少。针对目前医用体外冲击波碎石机在对肾脏结石患者进行结石
随着互联网的快速发展,视频信息急剧膨胀,谷歌、百度等通用爬虫越来越不能满足人们的专业化需求,因此对足球视频搜索而言,如何在互联网上抓取足球视频成为一个亟待解决的问题,同时
在当今这个高速发展的信息社会,数据可以说是企业生存的根本,数据破坏对企业来说无疑是致命的打击,对个人也是如此。在这样的大势下,数据的备份容灾成为了存储行业的研究热点。同
自从关系数据库的事务概念提出以来,如何解决事务问的并发以及串行化调度就成为了一个热点的问题。从上世纪八十年代开始物理行锁的封锁机制开始成为了关系数据界的主流解决
随着高校网络的迅速发展,大多数高校都已建立了自己的校园网。为了充分利用教育网上的资源,大多数高校都把教育网作为校园网的主要出口,但由于教育网与公网的互联带宽比较窄,
隐式多项式曲线,尤其是高次隐式多项式曲线对物体几何模型的描述非常有效,它用很少数目的参数就能描述形状不规则的物体,其稳定性和不变量的鲁棒性可用来快速有效地识别物体。在
随着网络信息技术在管理上越来越深入而广泛的应用,基于WEB的数据库信息管理系统的开发在技术上已逐步成熟,并成为主流和发展趋势。同样,信息管理技术正以前所未有的速度深入
随着网络技术和信息数字化的快速发展,面向海量数据的大型应用纷纷涌现,数据中心里存储服务器集群规模随之不断增大,越来越多的存储节点,给存储系统中的元数据服务器带来了更重的
高端容错计算机是指同时具备高性能和高可用特性的高端服务器。高端容错计算机主要面向金融、电信等涉及到国家战略安全的关键领域的计算需求,此类系统的可靠运行直接关系到
四边网格在有限元模拟仿真、样条曲面、参数化以及纹理贴图等领域有着非常广泛的应用。相比常用的三角网格,四边网格不仅天然具有张量积性质,而且在有限元计算中提供了更好的