【摘 要】
:
随着Web规模日益扩大,网络已经成为一个巨大的信息资源库。网络中包含了各种类型的对象信息,其中很大一部分信息被“深藏”于各类在线数据库中,用户只能通过向接口提交查询来
论文部分内容阅读
随着Web规模日益扩大,网络已经成为一个巨大的信息资源库。网络中包含了各种类型的对象信息,其中很大一部分信息被“深藏”于各类在线数据库中,用户只能通过向接口提交查询来获取信息,这类信息被称为Deep Web。如果这些对象信息能够被集成起来,提供对象级的检索服务,用户就能够快速、准确地找到所需信息。本文对面向Deep Web的对象检索关键技术进行了分析研究,并提出了相关的算法和模型。主要研究工作包括:(1)采用聚焦爬虫技术处理Deep Web数据源发现问题,提出了一个面向查询接口的聚焦爬虫框架及算法。(2)研究了基于URL模式和基于关键词查询的Web数据库内容获取方法。介绍了利用文档对象模型和正则表达式来抽取网页中的对象信息。(3)对Web对象的变化规律进行了建模,提出要根据对象的平均变化频率,确定本地数据的同步频率。(4)提出了一种混合对象匹配模型,该模型考虑了数据抽取中的多级错误,将对象属性抽取准确率作为参数来平衡结构化和非结构化的相似度计算方法。(5)参与设计并实现了一个面向Deep Web的对象检索平台。此外,本文还对文中提出的方法和技术进行了实验,通过对实验结果的分析进一步证明本文提出的技术方法是行之有效的。
其他文献
PaaS云作为一种重要的云计算模式,通常以可编程容器的形式交付一组软件和基础设施供云租户开发、托管及部署应用程序或服务。PaaS平台自身负责维护资源的动态扩展,可极大降低应
在移动通讯市场经过多年大规模网络建设、终端高度普及之后,移动运营商眼下都将精力集中于对现有网络整合、业务模式创新、服务质量提高和开拓新的用户市场上,以期实现快速的
近年来随着深度学习方法的发展以及GPGPU大规模并行计算技术的成熟,深度学习在学术界和工业界得到了广泛应用,2012年深度学习相继在图像分类和语音识别领域取得了突破性成果。
网格将用通信手段连接起来的资源无缝集成为一个有机的整体。它给用户提供一种基于国际互联网的新型计算平台,在这个平台上对来自客户的请求和提供资源的能力之间进行合理的
随着我国经济不断发展,信用贷款市场不断扩大,大量信用贷款平台应运而生,越来越多的小微企业及个体商户需要通过互联网信用贷款平台申请贷款满足其资金需求。由此信用贷款风险控制成为信用贷款行业的热门研究领域,信用贷款风险控制领域的主要研究问题之一是信用风险分类问题。随着机器学习方法在信用贷款风险控制领域应用日渐成熟,大量的信贷风控问题已经从原来的人工审核或者统计学习解决方式转由计算智能解决方式。使用计算智
随着现代社会对无线移动网络的需求迅速增长,基于无固定基础设施的、自组织、自适应的移动AdHoc网络在军事和民用上得到了快速发展,人们对其研究也持续升温。其中,AdHoc网络路由
近年来,移动互联网发展迅速,基于智能手机的应用越来越丰富,以智能手机为计算中心的移动医疗也依托这一势头发展迅猛。另一方面,我国人口结构进入了快速老龄化的阶段,心脑血管疾病
在目前的残疾人高等教育中,针对听障学生开展的计算机编程语言的教学存在许多难点。由于施教学生的特殊性——听力障碍所造成的沟通困难,常规的教学方式在听障学生教学中无法使
从Web中抽取和聚合对象信息对于Web数据处理意义重大,因为通常同一类型的对象分布于不同的Web资源中,而这些资源的结构特征迥异,现有的Web信息抽取技术往往无法较好地完成Web
随着网络技术的发展和万维网上信息资源的激增,万维网成为人们获取知识的主要来源,信息检索越来越受到人们的关注。传统的信息检索技术一般集中在关键字匹配方面,它不能对万