基于元搜索引擎的网页采集技术的研究与实现

被引量 : 0次 | 上传用户:liongliong527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,网络信息急剧膨胀,对互联网信息敏感的政府部门和企事业单位已经无法单单依靠人工监控来把握互联网的动向了。为了帮助用户更好地实时监控分析网络信息,近些年涌现了大量的互联网信息处理平台。这些互联网信息处理平台借助于高性能的计算机,及时、准确、全面的采集网络信息,并进一步为用户提供有价值的分析结果。然而,现有的网页信息采集技术在采集数据的时效性、全面性和有效率上还存在一定缺陷,并且设计复杂,维护困难,需要消耗大量的人力、物力。为了克服上述缺陷,本文将元搜索技术迁移应用到了互联网信息采集系统中去,提出了基于元搜索引擎的网页采集技术——采集型元搜索技术。实验结果表明,比起已有的网页信息采集技术,新的网页采集技术能够保证采集数据的时效性、全面性和有效率。本文所做主要工作如下:1)对传统的网页采集技术进行了详细的研究和分析,阐述了各种网络爬虫在满足互联网信息处理平台的网页采集需求时的优缺点,提出了基于元搜索引擎的网页采集技术。2)针对现有元搜索引擎应用于采集模块存在采集规模过小的问题,提出了基于局部共现统计的查询扩展技术(LCOOCS),通过增加查询次数的方式来获取更多相关网页。3)针对LCOOCS需要对初检结果进行文本分析,而元搜索引擎的采集结果都是HTML网页源代码的问题,设计并实现了一种全自动的正文抽取算法TextEx。4)设计并实现了一个采集型元搜索系统。总结提取了百度新闻、bing资讯等六大互联网搜索引擎的查询语法和结果页结构,实现了查询提交以及结果下载的自动化。
其他文献
针对皮带给料式定量包装秤动稳态性能差、无法适应多种定量多种物料的包装计量、难以协调计量速度计量精度的问题,基于模糊控制算法,设计了一种定量包装秤模糊控制器,并与模
金融数据是人类在社会发展中从事各种经济活动所产生的数据资料。伴随着国民经济的日益发展和进步,金融数据也在不断的产生和更新。金融数据平台是对金融数据进行统一收集、
会所这个词的概念是从国外引入到中国的,是指有一定的地位、身份的社会人群聚集交流的场所、最近几年以后,随着中国的经济突飞猛进的向前发展和中国社会地位的不断提高,人们的生
大学生是祖国的未来和民族的希望,肩负着建设中国特色社会主义伟大事业的历史使命。加强大学生廉洁文化教育,是我党在反腐倡廉工作中进行的具有根本性的惩治、预防腐败的一项
对危险驾驶行为是否应当入罪的探讨,针对的并不是应否弥补我国法律制裁体系的疏漏,其焦点在于是否应当将原本属于行政处罚范围的若干行政违法行为纳入刑事制裁的范围。受当前
本文介绍了农业银行实时汇兑系统的系统组成及业务流程,以及应用前景。
人脸识别技术是模式识别、人工智能及计算机视觉中的重要的研究课题,在门禁系统、国防安全、金融、银行等领域有广泛的发展前景。经过几十年的研究,很多人脸识别的算法在一定
众所周知,房地产企业是资金密集型和资金链比较长的企业,在投资过程中相比其他企业也面临着更多的风险和压力。引发风险的因素有很多,本文便从房地产企业投资活动的特点出发,
作文教学是语文教学的重要组成部分,是个人生活知识积累和语言能力的综合表现,是衡量学生语文水平的重要标尺。近年来情景作文教学、生活化作文教学等作文教育研究轰轰烈烈地
<正>在汽车生产线上,有冲压成形的,有车体焊接的,有防锈喷漆的,有引擎装置的,有模拟试验的……,就这样,每个工作人员在固定的位置上,按固定的工序,在固定的时间里,简单、快速