论文部分内容阅读
随着互联网用户爆炸式的增长,受众群体越来越广。在缺乏有效管理的互联网上,对一些敏感案件和突发事件的不实言论和恶意煽动,误导和欺骗了广大人民群众,扩大了人民群众的不满情绪,影响和破坏了社会的和谐稳定。互联网信息的健康程度已引起各级政府的高度重视,有必要对互联网上涉及意识形态安全的议题和言论进行有效地监管。互联网网页每天都以指数级的方式增长,要人工去甄别每个网页所含的信息,并加以分析统计是不现实的。只有采用计算机自动处理技术,使其自动地对互联网舆情进行分析、整理,才能建立起全面、有效、快速的舆情监测预警机制,使互联网得以健康、快速的发展。因此,对互联网舆情的获取与分析技术的研究已成为一项紧迫而又重要的课题。本文对文本的语义倾向性分析这一关键技术进行了深入地研究,通过分析现有语义倾向性识别技术的优缺点,结合隐马尔科夫模型在文本处理方面的良好表现,将本文研究的文本语义倾向性分析方法应用到互联网舆情分析系统中,对舆情信息进行分析,并提供舆情预警功能。文本的语义倾向性分析的目的是判断文本针对评价对象所持有的情感倾向是支持、反对还是中立。由于相似的评论文本,其内容必定有一定的内在联系。互联网舆情信息的表现方式多种多样,本文以网络评论为研究对象,试图将隐马尔科夫模型从已经成功应用的模式识别领域推广到语义倾向性分析系统。与传统倾向性识别系统不同的是,此理论通过建立隐马尔科夫分类模型,将未知文本进行状态序列化,得到文本中所有具有语义倾向的词语所对应的倾向性,然后选定多数词的倾向性来作为文本的总体语义倾向。本文实验系统采用Myeclipse7.0平台的集成开发环境开发,分为语料采集、构建模型和语义识别三个模块。语料采集模块为其它两个模块提供数据支持。构建模型模块将采集得到的数据作为语料进行训练,得到语义识别模型;语义识别模块完成对指定的文本的语义倾向性识别。本文通过对腾讯新闻论坛的数据分别进行封闭测试和开放测试,结果表明,该分析模型可以很好地识别各种未知文本的语义倾向性,并且当训练数据越全面,规模越大时,获得的识别率更高、更稳定。