基于分层采样的DeepWeb数据分析方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:bbtr12376
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Deep Web中蕴含海量的高质量数据。面向Deep Web的数据分析已成为目前Deep Web领域新的研究热点。由于Deep Web本身存在查询接口限制等问题,现有的Deep Web数据分析研究大多以采样的方式进行,而样本只能以提交查询的方式获得。由于查询次数相对于本地计算资源更加昂贵,对Deep Web进行数据分析时,不仅要考虑样本数据对于分析任务的支持度,而且要考虑如何减少查询次数。基于此,本文深入研究了两大类Deep Web数据分析任务,具体包括以下几个方面的工作:(1)针对Deep Web表单型查询接口的特性,分析了现有的采样策略及其在总量估计任务中的应用,探讨了样本无偏性对于不同分析任务的影响,为后续的研究提供理论基础。(2)针对Deep Web聚类分析任务,从降低采样次数和提高聚类准确率角度出发,提出了一种基于分层采样的Deep Web多步法聚类方法。为了弱化初始样本对于分层的影响,利用代表性采样与临界点采样策略迭代挑选最优样本子集,并结合分层样本权重信息以估计聚类结果。在人工和雅虎数据集上的实验表明,该方法能够达到较高的聚类精度。(3)针对Deep Web异常点分析任务,综合考虑准确率和召回率度量准则,提出了一种基于分层采样的Deep Web异常点检测方法。该方法从分层指标角度对分层过程进行优化以适应异常点任务的特性,并且结合样本的层次关系,以邻近采样的方式挖掘异常点样本。同时为了解决样本的不确定性问题,引入不确定性采样过程。在多个数据集上的实验表明,该方法在综合指标上有良好的表现。
其他文献
社会主义核心价值观是我们党凝聚全社会价值共识做出的重要论断,积极培育和践行核心价值观是学校落实立德树人的核心要求.践行社会主义核心价值观要与学校各项活动结合起来,
本论文研究来源于国家自然科学基金与新世纪优秀人才支持计划。库存路径联合优化问题是将库存控制问题和运输问题集成到一系统中,用一个目标函数来刻画。从研究和应用的现状
作文是语文的重点内容,随着年级的上升对学生作文水平的要求就越高.因此,在小学开始学习写作的时候教师就要注意激发学生学习写作的兴趣,提高学生的写作水平.在小学低年级阶
会计专业是一门实践性非常强的专业,而在会计专业之中,财务会计则是核心重点课程.现如今,我国财务会计教学之中存在着许多亟待解决的问题,这些问题严重影响了财务会计课程的
在本文中,作者选择的主题是基于生态视角的品牌竞争力研究。随着新经济时代的发展,特别是双向互动和共同进化时代的到来,品牌具备了生态系统的新功能,品牌竞争力也开始着眼于
自18世纪中叶在英国开始的第一次产业革命以后,从英国、德国、美国、日本、韩国等国家或地区的工业化过程可以看出,工业化因大机器生产体系的广泛使用,而能够大幅度地提高劳动生
在当今科学技术飞速发展的时代,教师不仅要作为理论知识与专业技术的传播者,还要在信息化的教育环境中,探索信息化课堂多元化教学模式,在课堂教学中恰当选择信息化手段,来提
随着我国经济水平的不断提高,各行业大幅度发展,特别是在电力工程这一领域,电力建设市场竞争日益激烈,在发展中存在着许多问题,其中电力工程项目档案管理尤为重要,企业如何利用科学
在素质教育的大力倡导下,学生的学习已经不再是对知识的复制粘贴,而是对知识的主动探索,从知识信息的被动接受者转为知识的主动吸收者,这让学生的学习过程变得更加丰富多彩,
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊