互联网舆情分析关键技术的研究与实现

被引量 : 28次 | 上传用户:hxs038
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网用户爆炸式的增长,受众群体越来越广。在缺乏有效管理的互联网上,对一些敏感案件和突发事件的不实言论和恶意煽动,误导和欺骗了广大人民群众,扩大了人民群众的不满情绪,影响和破坏了社会的和谐稳定。互联网信息的健康程度已引起各级政府的高度重视,有必要对互联网上涉及意识形态安全的议题和言论进行有效地监管。互联网网页每天都以指数级的方式增长,要人工去甄别每个网页所含的信息,并加以分析统计是不现实的。只有采用计算机自动处理技术,使其自动地对互联网舆情进行分析、整理,才能建立起全面、有效、快速的舆情监测预警机制,使互联网得以健康、快速的发展。因此,对互联网舆情的获取与分析技术的研究已成为一项紧迫而又重要的课题。本文对文本的语义倾向性分析这一关键技术进行了深入地研究,通过分析现有语义倾向性识别技术的优缺点,结合隐马尔科夫模型在文本处理方面的良好表现,将本文研究的文本语义倾向性分析方法应用到互联网舆情分析系统中,对舆情信息进行分析,并提供舆情预警功能。文本的语义倾向性分析的目的是判断文本针对评价对象所持有的情感倾向是支持、反对还是中立。由于相似的评论文本,其内容必定有一定的内在联系。互联网舆情信息的表现方式多种多样,本文以网络评论为研究对象,试图将隐马尔科夫模型从已经成功应用的模式识别领域推广到语义倾向性分析系统。与传统倾向性识别系统不同的是,此理论通过建立隐马尔科夫分类模型,将未知文本进行状态序列化,得到文本中所有具有语义倾向的词语所对应的倾向性,然后选定多数词的倾向性来作为文本的总体语义倾向。本文实验系统采用Myeclipse7.0平台的集成开发环境开发,分为语料采集、构建模型和语义识别三个模块。语料采集模块为其它两个模块提供数据支持。构建模型模块将采集得到的数据作为语料进行训练,得到语义识别模型;语义识别模块完成对指定的文本的语义倾向性识别。本文通过对腾讯新闻论坛的数据分别进行封闭测试和开放测试,结果表明,该分析模型可以很好地识别各种未知文本的语义倾向性,并且当训练数据越全面,规模越大时,获得的识别率更高、更稳定。
其他文献
我国快速城市化发展时期盲目求大的现代街区建设,导致原有城市结构的打破、城市空间形态的切割、地域“场所精神”的消亡、传统居住与交往空间尺度的沦丧,针对这些现象展开本
采取溶剂热法制备C/Bi2MoO6光催化复合材料,通过SEM、XRD和XPS等手段研究催化剂的形貌,晶相结构和元素组成等,并在可见光下进行RhB(罗丹明B,C28H31ClN2O3)以及BPA(双酚A,(CH3
《世说新语》是魏晋南北朝时期最重要的一部志人小说,在中国文学史上有重要地位,对后世小说产生了重大影响,甚至出现了众多的“世说体”小说,一直到近代仍有人在模仿它的体例
人类的生存与发展始终伴随着大量的有机废弃物的产生,随着人们生活水平的提高和农业生产的发展,有机废弃物—人粪、农作物秸秆、牲畜粪便排放量的日益增加,对环境的污染也日
在清末民初景德镇瓷画名家中,何许人是具有深远影响的一位。作为文人画派在陶瓷绘画艺术上的承传者和继承人之一,何许人用毕生的精力和艺术实践,为使陶瓷文人画艺术成为艺术
黑釉瓷在中国古陶瓷史上占有很重要的地位。深入研究高铁析晶黑釉的形成机理和烧制工艺,对重现这一历史珍品具有重要意义。?本研究针对宋代福建建窑、江西吉州窑、陕西耀州窑
[目的]对加味香连丸质量控制进行研究。[方法]采用薄层色谱法对加味香连丸中白芍、当归、黄芩进行定性鉴别,建立高效液相色谱法同时测定加味香连丸中芍药苷、柚皮苷、黄芩苷
“珠山八友”是20世纪初到20世纪中叶在中国陶瓷艺术发展史上有着重要影响的一个陶瓷画家群体,取得了相当高的艺术成就。本文以“珠山八友”的陶瓷艺术为研究对象,运用美学、
纳税评估制度是当前国际通用的税收管理模式,发达国家利用纳税评估制度提高其本国税收征管效率并起到了非常积极的作用。随着征管信息技术的发展、税收征管制度不断完善、征
辞职权作为一项法定权利,成为劳动者在劳动力市场上自由流动的法宝。它不仅是劳动者择业自由的重要保障,体现了法律对劳动者生存权和发展权的维护,同时也使得劳动力资源得以