【摘 要】
:
伴随着互联网及应用和服务的普及,网上信息量以带宽的指数级增长,互联网用户信息检索的难度和复杂度也不断提高。因此,搜索引擎越来越引起人们的重视和关注。Google曾宣称它
论文部分内容阅读
伴随着互联网及应用和服务的普及,网上信息量以带宽的指数级增长,互联网用户信息检索的难度和复杂度也不断提高。因此,搜索引擎越来越引起人们的重视和关注。Google曾宣称它们索引的网页数目已达到10000亿,中国的网页规模也超过了100亿,并且仍在以指数的增长方式急剧猛增,面对如此浩瀚的信息资源,如何有效的提取并利用这些海量信息成为搜索引擎面临的一个巨大挑战。为了提高搜索效率和满足人们日益增长的个性化服务的需求,适应特定领域、特定人群的特定需求的主题搜索引擎(也称专业搜索引擎和垂直搜索引擎)应运而生,并且越来越受到人们的青睐。主题搜索引擎只专注于与主题相关的高质量网页,保证了对主题相关信息的完全收录和及时更新,具备“专,精,深”的特点,成为新一代搜索引擎的发展趋势。搜索引擎爬取网页是以网络爬虫技术来实现的,而主题爬虫以何种策略高效爬取web信息,成为近年来爬虫研究地焦点之一本文着眼于提高主题爬虫的爬取效率,通过对VSM网页分类算法分析,从特征提取、特征值计算和类核心词汇生成三方面改进了VSM网页分类算法,其中对于特征值计算,本文从词语的出现语义角度来考虑,给出了混合因素加权的特征项的权值计算方法,提高了文本相似度计算的精度。并结合"Better Parent Have Better Children"思想,提出了运用相似度预测值动态调整主题爬虫的爬行步数,通过灵活设置相似度预测的K值,引导爬虫穿越隧道,即动态调整主题爬虫穿越隧道算法。该算法消除了K值设置过大引起的低爬准率或过小导致低爬全率的缺陷。基于本文提出的主题相关度的计算算法来动态决定主题无关页面是否丢弃,在很大程度上扩大了主题爬虫的有效搜索范围。使众多独立的网络社区互相连接起来,形成一个相对完整的主题群,引导主题爬虫高效的穿越网络隧道,提高主题爬虫的爬全率和爬准率。
其他文献
当今互联网上信息繁杂,存在多种多样的信息格式,质量参差不齐。其中结构化数据是众多种类的数据中质量最高的一类,它包括关系数据库、本体、XML数据库等。互联网上已有的结构
在面向对象的软件设计中,类内部、类与对象、类与类之间和类与外部系统之间的耦合成为软件开发中的瓶颈,严重影响到软件的可维护性、健壮性、重用性。为了提高软件的复用性、保
近年来随着互联网用户的不断增加,用户产生的信息呈现出指数级的增长,这些信息中的很大一部分都是以数字图像的形式存储的,面对海量的图像数据,在充分识别图像的基础上既要对
软件复用技术是克服“软件危机”,从根本上提高软件生产率和质量的一种比较有效的对策和方法,而基于构件的软件复用是目前软件设计和代码复用的成熟和主流技术。随着软件应用
图数据的不确定性普遍存在,研究不确定图上的高效查询处理与模式挖掘方法具有重要意义。本文研究的不确定图是指边上附带存在概率的不确定图。现有的不确定图上的查询和挖掘
分布式拒绝服务(Distributed Deny of Service, DDoS)攻击是目前威胁最大危害最严重的Internet主要攻击手段之一。DDoS攻击是基于TCP/IP协议当初在设计上的缺陷和Internet的
随着空间信息技术的发展,越来越多的网络应用服务需要以空间信息为基础,在这种背景下,G/S模式应运而生,为海量、多元、异构空间信息的组织、管理、展示和描述提供了新的解决
在网格资源管理中,越来越多用户对资源提出了不同的QoS需求。大多数现有的网格资源管理系统采取的调度策略仅以提高系统或资源的利用率以及在最早时间内完成任务为目标,或者
目前,卫星遥感图像在生产和生活中得到了广泛的应用。卫星遥感图像较高的使用价值和商业价值,使得对卫星遥感图像的控制流转也越来越被重视。本文的研究目的在于解决卫星遥感图像在其生命周期中各个阶段所面临的安全问题。本文根据以前电子文档安全保护项目的经验,并结合卫星遥感图像的特点,提出了一个贯穿卫星遥感图像整个生命周期的安全解决方案。该方案主要完成两个任务:访问控制及图像版权的识别。围绕第一个任务,本文首先
随着电信业务、电子商务、办公自动化以及企业计算等领域的发展,产生了Web服务技术。Web服务组合是Web服务技术的主要研究内容,主要是为了满足用户或企业的复杂请求。为了使