基于表单特性的深层网络数据源分类方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yinxiaomei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,Deep Web中蕴含着高质量的海量信息并且其数量还在不断地增长,由于DeepWeb具有分布、异构、自治等特点,用户高效、快捷地获取自己感兴趣的信息面临巨大挑战。然而,将Deep Web数据源按领域分类是解决这一挑战的基础。因此,研究DeepWeb数据源的组织问题具有重要意义。本文通过Web字典、课题组开发的深层网络数据源自动抽取工具以及搜索引擎收集了大量深层网络数据源,它们分别来自于航空订票、图书销售、汽车和房地产等四个领域。针对其中的200多个数据源进行统计和分析发现:第一,“主题词”能够较好地区分深层网络数据源。具体来说,查询接口源代码中,绝大多数title标记含有内容,而且这部分内容中的有些词往往只出现在某个领域并且在一定程度上反映了该查询接口的主题,即所属的相关领域;第二,同一领域查询接口间相似属性的个数往往较多,不同领域接口间相似属性的个数则较少,或者几乎没有;第三,对于每个领域,随着深层网络数据源的增长,查询接口中属性出现的总的词汇量往往趋向于一个较小水平,平均大概在60左右;第四,深层网络中大部分为结构化的数据源。受此启发,基于表单特性——主题和表单属性信息,本文提出了一种新的深层网络数据源分类方法以及改进的查询接口相似性度量方法,实现了按照现实领域自动组织大规模深层网络数据源的目的。该方法主要由四大模块组成:预处理模块、标记策略模块、半监督K-Means聚类模块和后分类模块。本文还提出了一种查询接口标记策略,以降低随机选择初始中心点所产生的影响。实验结果表明:该方法能够有效、通用地解决深层网络数据源的分类问题并且具有较高的准确率和召回率。
其他文献
随着GPU体系结构的发展和GPU编程模型的成熟,越来越多的应用程序采用了高性能GPU架构来开发。NVIDIA公司提出的CUDA编程模型,已经在业界取得了巨大成功,引起了学者们的广泛研究
随着互联网的迅猛发展和普及,宽带流媒体技术的出现,视频点播(Video on Demand,简称VOD)业务已经成为当今互联网的主流业务之一。传统视频点播系统基于客户端/服务器架构,虽然可控
多核处理器是处理器的发展趋势,根据系统的内核结构是否存在差异,多核处理器可分为同构多核和异构多核。同构多核存在一定的局限性:在系统达到极限值之后,性能就无法随着内核
随着万维网快速发展,深层网络中蕴含的信息日益增加。由于深层网络具有规模大、异构性、自治性等特点,如何使用户高效、快捷地获取自己满意的信息面临挑战。为了解决这一问题,需
无线传感器网络的诸多应用中,节点定位技术作为无线传感器网络的核心支撑技术之一,越来越受到重视,已经成为研究领域的一个热点。传感器节点之间位置的确定成为无线传感器网络应
主流的JavaScript引擎(如V8)都使用了类型特化技术来优化程序性能,这种技术需要在运行时预测各个程序点的变量的类型集合。但JavaScript语言的动态性会降低程序的类型可预测
视频人脸的检测与跟踪是计算机视觉与模式识别领域中一个核心课题,在视频监控、人机交互、视频会议、身份认证以及多媒体领域等方面有着广泛的应用价值。视频中人脸的处理主要
高性能计算机的发展促使了高效能程序设计环境的产生与发展,尤其是并行编程模式的发展。一方面,由于并行机体系结构的多样性给并行程序的开发带来了很多困难,因此怎样简化并
知识模型就是将知识进行形式化和结构化的抽象,是知识工程发展和应用的基石,他在中医学领域中的发展方兴未艾,而该领域的知识工程也在发展中。本文介绍了由中国中医科学院提
随着网络技术的发展,文件分享系统(BitTorrent)、在线播放系统(PPLive)、视频点播系统(Joost)等通过协作定位和分布共享的对等网文件共享系统已经成为占据当今网络流量最多的