面向舆情的网页敏感度分析系统的设计与实现

来源 :新疆大学 | 被引量 : 0次 | 上传用户:fdgbh54g45g44
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展和互联网的普及,互联网用户的规模越来越大,各种领域的网站也相继出现,主要有大型门户网站、政府类、新闻类、交易类、高校类网站等等,他们涵盖了所有的领域,比如经济、政治、文化、教育等等,从国家到政府、从企业到个人、从城市到乡村,获取信息和发布信息的途径已经从其他方式转移到了利用互联网,这得益于互联网的传播快速性,很少受到时间或者距离的影响。特别是从个人来说,手机、电脑的普及化使每个人都走进了互联网,使每个人能随时随地的在互联网中获取各种信息,而且用户在互联网中享受着言论的相对自由。在这种互联网环境下,如果一旦有不良信息进入互联网,那么它将会以极快的速度在互联网上传播,当阅读这些不良信息的互联网用户达到一定程度时必将在社会上引起强烈的讨论,更严重会造成社会的不稳定,甚至危害国家的安全,这种事情也经常发生,比如2012年全国大规模的反日游行、2008年汶川震后的各种谣言。所以必须有效的把控不良信息进入互联网。本文通过判定网页正文的敏感度来防止不良的信息进入互联网。目前,敏感词库和敏感词等级库都不太健全,对网页敏感度的研究也非常少。本文收集了互联网上存在的敏感词库,在对这些敏感词库汇总的基础之上,将每一个敏感词都按照一定的标准进行了敏感等级的标注,构建了敏感词等级库。系统设计过程中,主要提出和使用了三个算法,分别是基于AC算法的多模式匹配算法、网页正文提取算法和基于敏感密度的网页正文敏感度分析计算方法,系统共包含六大模块:数据库管理、爬虫设计、网页正文提取、敏感词检测、网页敏感度分析和数据页面展示,系统能够进行网站URL抽取、网页正文抽取、敏感词检测和网页敏感度计算的功能,通过该系统能够有效地检测出互联网中存在的不良信息。
其他文献
在喜庆中国人民解放军诞生60周年的日子里,我们不禁深切怀念我军的缔造者之一——伟大的无产阶级革命家、军事家刘伯承元帅。他不仅统率千军万马.长期驰骋疆场,痛歼顽敌.累建奇勋
潍坊市地处山东半岛中部,总面积1.73万平方公里,辖三区、一市、八县,总人口79677,其中市区人口105万。
回顾性分析22例CDPD合并呼吸衰竭患者的临床资料,总结无创正压通气治疗COPD合并呼吸衰竭的护理经验。
目的 寻找快速简便筛检菌尿的方法.方法 217份中段尿标本,每份标本用10μl尿液做细菌培养,同时用10μl尿液直接涂片,经革兰染色镜检.剩余标本则用UF-100尿液沉渣分析仪进行细
社区是社会的基本单元,社区治理是国家治理的基础。从某种意义上讲社区就是一个微缩的社会,社区作为政府和居民的中介机构,代政府向居民提供服务,代居民向政府表达诉求,协调
随着科技的进步和发展,大数据技术应用而生。在大数据时代背景之下,各行各业都发生了巨大的转变,企业管理也面临着更多的难题。为了适应时代的发展和进步,企业要改变传统的管
目的探讨子宫动脉栓塞+甲氨喋呤灌注治疗植入性胎盘的临床疗效。方法采用X线影像监视下选择性子宫动脉内插管,一次性灌注甲氨喋呤100mg,并以明胶海绵颗粒栓塞治疗植入性胎盘12例
赵紫阳总理在第六届全国人大第四次会议上指出:“为了适应国家对企业的管理由直接控制为主转向间接控制为主的要求,政府机构管理经济的职能也要相应地转变。”物价管理部门是政
期刊
目的探讨精神分裂症合并糖尿病患者的临床特征. 方法采用病例对照研究的方法,收集精神分裂症合并糖尿病患者(合并组)30例和精神分裂症未合并糖尿病患者(对照组)30例,使用自制