主题爬行相关论文
随着Internet的快速发展,Web上的信息与资源日益膨胀。面对海量的信息资源,如何更快更好的获取需要的资源成为人们日益关注的问题......
随着互联网技术的飞速发展,传统的通用搜索引擎逐渐暴露出了覆盖率低、结果不准确等弊端。为了满足用户精确搜索的需求,垂直搜索引擎......
随着互联网行业如火如荼的发展,WWW信息资源得到蓬勃的增长,近年来人们越来越关注搜索引擎的研究工作,传统的基于关键字的搜索策略在......
随着互联网的蓬勃发展,建立在互联网之上的各种应用也层出不穷,其中最为成功的莫过于万维网(WWW)。万维网被称为“网中之网”,是互联......
我们生活在大数据时代,互联网上海量的数据为科学研究和产品开发提供了巨大的机会和潜能。如何快速而精准地在体量庞大的互联网资......
学位
将deep Web发掘与主题爬行技术有机地结合起来,对deep Web垂直搜索引擎系统的关键技术进行了深入研究.首先设计了deep Web主题爬行......
为了高效地获取与主题相关的资源,就垂直搜索引擎展开了研究。首先,在现有的PageRank算法基础上,提出一种改进的PageRank算法来测......
结合信息增益,提出了一种新的自适应主题爬行策略。利用维基百科的分类树和主题描述文档构建主题向量T,并在爬行过程中不断地进行......
针对以往主题描述方法未充分考虑主题上下文的问题,提出了基于ODP(开放式分类目录)的上下文主题描述方法.使用新的特征选择算法对主......
提出了一种基于领域本体的相似度计算与基于网页结构的特征向量抽取相结合的分类器构建方案,改进后的WF-TF/IDF模型根据网页各部分......
针对目前通用搜索引擎搜索到的结果过多、与主题相关性不强的现状,提出一种基于网页分块技术的主题爬行器实现方法,并实现了一个原型......
采用计算向量之间相似度的方法,通过实验分析验证了表格信息在主题爬行中的重要性.研究结果表明,与整个网页相比,表格所能提供的与用户......
由于网络环境的复杂性和网页内容的多主题性,要想得到更多的特定主题相关网页,就要穿越那些主题不相关网页来获取更多的主题相关网页......
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从......
针对现有的主题爬行方法存在收益率不高和不稳定的问题,融合本体和最小二乘支持向量机理论,提出一种主题爬行方法 Ontology-LSSVM.......
结合主题爬虫和本体学习的研究现状,设计并实现了基于本体的主动学习主题爬行系统。通过更好地规划爬虫爬行流程,详细地划分功能相......
针对目前互联网信息资源广泛、网页结构复杂、噪音信息较多的现状,主题爬虫获取有效信息过程中精确度低、耗费时间长等问题。结合......
针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主......
爬虫是搜索引擎的关键组成部分,本文提出了一种可利用之前爬行数据自动改进其分析算法与种子URL集合的主题爬行算法,并讨论了其首次......
针对传统的TFIDF模型计算根集(root set)文档特征权重的不适应性,提出了计算文档特征权重的新方法--TFIDF-2模型.另外,给出3种启发......
因特网的迅速发展对传统的爬行器和搜索引擎提出了巨大的挑战。各种针对特定领域、特定人群的搜索引擎应运而生。Web主题信息搜索......
当前网络中地理信息以几何形式递增,为了高效地从海量网络信息中检索出高质量的地理信息,本文提出了一种基于主题爬行的地理信息分......
互联网的飞速发展使得主题爬行程序需要处理的网页越来越复杂,现在有相当数量的网页是多主题的(Multi-Topic)。如何在一个网页内部......
随着网络信息内容的迅速增长以及信息环境的越趋复杂,现有的以覆盖所有网页为目标的搜索引擎正面临着严峻的挑战。首先,网页数量呈......
地理信息Web服务分散于表层网络和深层网络,给服务的查找和获取带来了困难。针对这一现象,研究设计开发了一个顾及深层网络的地理......
互联网上的信息以几何级数的速度膨胀,为了从纷繁芜杂的信息海洋中找到有用的信息,人们借助搜索引擎搜寻所需信息。Yahoo、Google......
主题爬行是获取World Wide Web中特定领域(主题)的网页的关键技术。随着Web的快速增长,以及网络带宽和各种资源的有限性,从中获取全......
教育关乎民生,关系到国家的未来和民族的希望,直接关系到人们的切身利益和日常生活,是国民关注的重点。随着网络和通讯技术的不断......
本文针对面向专业搜索引擎的主题网页信息获取问题,对主题爬行技术进行了深入的研究,提出了基于链接上下文的自适应主题爬行方法,......
基于主题爬行的搜索引擎,即垂直搜索引擎,又可称为主题搜索引擎。它与通用搜索引擎的区别主要体现在资源与服务上,主题搜索引擎提......
随着互联网技术的飞速发展,网络上的信息呈指数级增长,同时web2.0的交互性技术使人们能够在互联网上进行交流和发表各种意见评论信......
随着网络带宽的提高、网络用户的增加,以及数码产品的普及,网上视频内容日益丰富,收看网络视频的用户急剧增多,视频服务网站也不断......
主题爬行是专业搜索引擎的基础,爬行策略与爬行算法是主题爬行技术的核心,通过分析主题爬行的基本原理,对爬行策略与爬行算法进行......
为克服传统主题爬行器在爬行速度和主题预测精度上的不足,提高爬行器的查准率和查全率,根据当前常用主题爬行策略的特点,通过页面辐射......