论文部分内容阅读
当前,Deep Web中蕴含着高质量的海量信息并且其数量还在不断地增长,由于DeepWeb具有分布、异构、自治等特点,用户高效、快捷地获取自己感兴趣的信息面临巨大挑战。然而,将Deep Web数据源按领域分类是解决这一挑战的基础。因此,研究DeepWeb数据源的组织问题具有重要意义。本文通过Web字典、课题组开发的深层网络数据源自动抽取工具以及搜索引擎收集了大量深层网络数据源,它们分别来自于航空订票、图书销售、汽车和房地产等四个领域。针对其中的200多个数据源进行统计和分析发现:第一,“主题词”能够较好地区分深层网络数据源。具体来说,查询接口源代码中,绝大多数title标记含有内容,而且这部分内容中的有些词往往只出现在某个领域并且在一定程度上反映了该查询接口的主题,即所属的相关领域;第二,同一领域查询接口间相似属性的个数往往较多,不同领域接口间相似属性的个数则较少,或者几乎没有;第三,对于每个领域,随着深层网络数据源的增长,查询接口中属性出现的总的词汇量往往趋向于一个较小水平,平均大概在60左右;第四,深层网络中大部分为结构化的数据源。受此启发,基于表单特性——主题和表单属性信息,本文提出了一种新的深层网络数据源分类方法以及改进的查询接口相似性度量方法,实现了按照现实领域自动组织大规模深层网络数据源的目的。该方法主要由四大模块组成:预处理模块、标记策略模块、半监督K-Means聚类模块和后分类模块。本文还提出了一种查询接口标记策略,以降低随机选择初始中心点所产生的影响。实验结果表明:该方法能够有效、通用地解决深层网络数据源的分类问题并且具有较高的准确率和召回率。