面向Web搜索的链接可用性分析与推测技术研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:duchze
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web信息数量过多、增长过快,使得搜索引擎成为人们在Web上查找和获取信息的主要方式。Web上的信息分布存储、规模巨大,且有大量不稳定数据,加之网络的不稳定性,导致搜索引擎存在链接可用性问题,即搜索结果中有无法访问或响应时间过长的链接。因此,进行链接可用性分析有实际应用价值。本文在分析链接可用性影响因素的基础上,提出基于搜索结果逻辑层次拓扑图的链接可用性分析与推测方法,对方法中的核心概念进行解释和定义,给出方法的总体过程,研究并设计方法中的核心算法。通过将搜索结果逻辑层次拓扑图转换为一棵二叉树,采用树的层次构造思想完成拓扑图构造。为获得较好推测效果,抽样算法应考虑总体的逻辑位置信息,提出基于拓扑图的分层抽样算法。提出基于HTTP请求和ICMP报文的链接可用性检测算法,算法既能获取服务器端的信息也可以获取当前的网络信息,从而能够提高推测效果。通过分析HTTP响应信息和ICMP报文,制定链接可用性判定规则;根据检测路径越长链接可用概率越大的原则,制定链接可用性推测规则;根据判定规则判定拓扑图中相关节点的可用性,并在此基础上根据推测规则推测其他链接的可用性。本文通过实验对方法中的各个核心算法进行分析,并通过比较试验证明方法的有效性。
其他文献
博客是伴随Web2.0出现的一个典型应用,随着博主越来越多,博客页面的数量迅速增长。由于每个用户自身情况千差万别,面对Internet上指数增长的可用信息,人们越来越难找到自己想
随着多媒体技术和网络技术的迅速发展,视频作为一种主要的媒体类型已成为与人类工作生活密不可分的信息载体。庞大的视频数量和不断彭胀的用户群体急需要一种高效的组织视频
随着互联网的发展,商品的种类越来越多,商品的信息结构也越来越复杂,影响推荐系统性能的附加信息也随之增长。附加信息是指除评分矩阵以外的文本、属性、地理位置、时间等信
随着互联网信息的不断增长,博文成为Web2.0的重要应用,人们使用博文进行发表观点,书写生活等一系列活动。由于网络中蕴含着大量的信息,用户对博文搜索引擎的功能、搜索效果以
随着信息化发展速度的不断加快,XML技术发挥的作用越来越重要。目前,XML在多领域的数据表示、建模分析等方面都有广泛的应用。然而建立在多维度基础上的XML数据查询却比较复
随着社会的进步和科学的发展,信息数据量呈爆炸性增长,特别是基因序列这样的数据,其增长速度已经超出了人们的想象,给数据存储和传输造成了很大的压力,各种压缩技术被提出来
随着网络的发展,网络安全问题也日益突出。网络蠕虫肆虐,正给网络用户造成了巨大的损失。而蠕虫传播模型的研究对于揭示蠕虫的传播特性和规律,并提出行之有效的控制方法,有重
随着科学技术的迅猛发展,视觉系统以其信息量大等优点成为了一种重要的导航方式,在机器人视觉、视频监控、导航、飞行器等方面已经得到了广泛的研究和应用。目前,利用机载摄
近年来,随着无线互联网技术和移动通信技术的发展,用户对于移动性通信的需求越来越高。目前全球范围内存在着多种无线接入网络,用户可以随时随地接入合适的无线网络中进行通
随着互联网技术的发展,不同文化间的交流呈现迅速上升的趋势。作为自然语言处理领域最具挑战性课题之一的机器翻译受到越来越多的研究机构的重视。本文在东北大学与日本富士