论文部分内容阅读
近年来,我国互联网发展迅速,对于促进经济发展和社会进步、提高全民族科学文化素质、加强社会主义精神文明建设,起到了重要作用。但与此同时,互联网信息内容的安全管理工作也面临着一些新的情况和问题,境内外敌对势力和一些不法分子,利用互联网进行各种违法犯罪活动问题突出,各种反动、淫秽、迷信、暴力等有害信息在互联网上的传播,严重地危害了国家安全和社会稳定,影响了社会主义精神文明建设,对青少年的身心健康造成极大伤害,广大人民群众和社会各界反应强烈。
据中国互联网信息中心(CNNIC)发布的“第十六次互联网发展状况统计报告”显示,截止2005年6月30日,我国上网用户总人数已经达到10300万人,网站总数达到677500个。面对如此众多的网站,传统的通过人工浏览来进行内容核查的方式,不仅需要大量的人力和财力,也难以在有限的时间内发现网络上出现的特定内容。因此有必要研制一种计算机软件来帮助人们自动搜集网络信息、分析信息的内容,从而为人工甄别提供便捷有效的技术手段。
本文对网络信息挖掘、文本挖掘、搜索引擎的工作机理以及WebBrowser、Mshtml组件进行了深入研究,在此基础上,设讣并实现了一整套互联网有害信息搜索采集系统(ASystemforSearchingandCollectingHarmfulMessagesintheInternet),所做的主要工作包括:
1、对数据挖掘、网络信息挖掘、文本挖掘技术进行了分析,提出了如何在BBS、聊天室等交互式栏目中进行特征提取,关键词搜索的方法。
2、分析了网页的结构和BBS的构成,通过设置网页的搜索策略和采用深度优先搜索算法,完成了对网站和BBS的整站搜索。
3、分析了IE的体系结构和WebBrowser、Mshtml组件的基本功能,对聊天室页面结构进行HTML元素分析,实现了聊天室的自动登陆和对聊天信息的动态监控。
4、探讨了网络搜索引擎的工作原理和检索模型,通过分析Google、Baidu等搜索引擎的输出结果特征,获得了搜索引擎搜索数据的通用代码。