论文部分内容阅读
Deep Web中蕴含海量的高质量数据。面向Deep Web的数据分析已成为目前Deep Web领域新的研究热点。由于Deep Web本身存在查询接口限制等问题,现有的Deep Web数据分析研究大多以采样的方式进行,而样本只能以提交查询的方式获得。由于查询次数相对于本地计算资源更加昂贵,对Deep Web进行数据分析时,不仅要考虑样本数据对于分析任务的支持度,而且要考虑如何减少查询次数。基于此,本文深入研究了两大类Deep Web数据分析任务,具体包括以下几个方面的工作:(1)针对Deep Web表单型查询接口的特性,分析了现有的采样策略及其在总量估计任务中的应用,探讨了样本无偏性对于不同分析任务的影响,为后续的研究提供理论基础。(2)针对Deep Web聚类分析任务,从降低采样次数和提高聚类准确率角度出发,提出了一种基于分层采样的Deep Web多步法聚类方法。为了弱化初始样本对于分层的影响,利用代表性采样与临界点采样策略迭代挑选最优样本子集,并结合分层样本权重信息以估计聚类结果。在人工和雅虎数据集上的实验表明,该方法能够达到较高的聚类精度。(3)针对Deep Web异常点分析任务,综合考虑准确率和召回率度量准则,提出了一种基于分层采样的Deep Web异常点检测方法。该方法从分层指标角度对分层过程进行优化以适应异常点任务的特性,并且结合样本的层次关系,以邻近采样的方式挖掘异常点样本。同时为了解决样本的不确定性问题,引入不确定性采样过程。在多个数据集上的实验表明,该方法在综合指标上有良好的表现。