深度网络信息爬取关键技术研究与实现

被引量 : 0次 | 上传用户:jjpabc123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,网络中的信息量呈现几何级的爆炸式增长。我们根据网络信息的获取方式不同可以把互联网分为浅层网络与深度网络二部分。浅层网络通过网页中的超链接即可以爬取。深度网络中的信息隐藏在网页搜索框背后,用户必须以向网页表单提交查询词的形式才能获取信息。由于深度网络明显区别于浅层网络的信息获取方式,使得传统的基于超链接的网络爬虫无法爬取并索引深度网络中的信息。随着深度网络中的数据规模及质量不断提高,获取其中信息对于搜索引擎来说意义重大。本文提出一种基于最优查询词的深度网络爬虫。我们的方法解决了现有深度网络信息爬取中自动化程度低,适用领域窄的问题。本文设计的深度网络爬取系统包含三个核心算法:深度网络入口的智能识别方法,通过统计学习大量的表单网页控件、文本环境、网站深度特征,实现深度网络入口智能识别;最优查询种子集生成算法,提出了将含有表单的网页划分为表单控件空间与网络文本空间二个子空间,并在此划分的基础上对表单网页进行聚类,获得最优查询种子集;最优查询词提交及反复迭代算法,设计了一种对最优查询词不断提交及迭代更新的循环算法,在爬虫不断获取最新深度网络信息的基础上,同步更新最优查询词列表。最后是系统的设计实现及算法的测试结果。在提出理论分析的基础上完成了系统的编码实现,并通过实验验证了算法的有效性。Ⅱ
其他文献
本文在回顾国内外基于任务的表现性评价研究及评价工具研究相关文献的基础上,运用访谈和问卷调查的方法了解在基于任务的初级汉语口语表现性评价中汉语教师从哪些方面来评价
<正>作为全球最大商业银行的工商银行,正在谋求一场意义深远的转身与变革。伴随篡互联网金融品牌"e-ICBC"的发布,电商平台"融e购"正在成为工行倾力打造的重要平台之一,其战略
OpenMP是一种支持Fortran,C/C++的共享存储并行编程标准。它基于fork-join的并行执行模型,将程序划分为并行区和串行区。近几年来,OpenMP在SMP(Symmetric Multi-Processing)
为了兼顾天线的工作带宽、增益以及旁瓣,文中提出了一种长度约为1 200 mm的通过阵列分隔板改善谐振式波导缝隙阵列天线性能的新型船舶导航雷达天线.该天线通过阵列分隔板将缝
银行如何服务"三农",这些年大家一直在谈论,并为此提出很多宝贵意见,记者也曾多次采访金融界人士和相关专家学者,但对于农村、对于农民、对于基层银行的金融服务仅仅有着片面
目的分析家长参与住院康复模式对不随意运动型脑瘫患儿康复过程管理的效果,为本病的专业康复、社区康复与家庭康复网络体系建设提供新思路。方法以2007年3月~2009年5月在郑州
由美国“次贷”危机而引发的全球金融危机,再一次促使人们对政府规制进行反思。自20世纪七十年代末开始,放松规制与规制改革运动兴起,政府再一次成为人们抨击的对象。向企业
合作原则是语用学的一项重要原则 ,通过遵守它 ,双方的会话得以顺利进行。合作原则包括四个准则 :数量准则、质量准则、关系准则和方式准则。在使用中附加疑问句除了具有通常
以我国物流企业竞争力评价为总目标,建立相应的竞争力评价指标体系,通过运用层次分析法确定了各层次指标权重,在此基础上根据模糊综合评价方法实证评价了物流企业的竞争力,为
随着能源和环境问题的日益突出,汽车轻量化成为汽车工业的发展趋势。采用高强度钢、镁、铝合金等轻量化材料是实现汽车轻量化的重要途径之一。介绍了几种常用轻量化金属材料