一种面向科学数据的通用排重模型

来源 :第二十五届中国数据库学术会议(NDBC2008) | 被引量 : 0次 | 上传用户：end001

【摘要】

：

数据清洗是保证数据仓库中数据质量的必要过程,其中对重复数据的识别是数据清洗的一个技术难点.目前这方面的研究大多都是以排重算法的效率为主,还没有提出一个通用的排重模型,同时以科学数据为排重对象的研究较少.提出了一种关系型数据仓库中多级级联表的通用科学数据排重模型.还采用了分区排序的方法保证了该排重模型的效率并进行了详细的性能测试.理论和实践证明该模型针对科学数据具有高效性、稳定性和通用性。

【作者】

：

相文玺宋杰房强丁辉鲍玉斌于戈

【机构】

：

国家海洋信息中心天津 300171 东北大学信息科学与工程学院沈阳 110004

【出处】

：

第二十五届中国数据库学术会议(NDBC2008)

【发表日期】

：

2008年5期

【关键词】

：

数据清洗数据排重科学数据排重模型数据仓库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

基于开关量预测控制的地层环境温控系统

本文根据实际的简化模型,建立了地层环境温度控制系统状态空间模型,在此基础上提出了基于开关量的多变量约束预测控制算法并将其应用到地层环境温度控制系统中,实际应用表明显示出了该算法的优良性能.

会议

预测控制状态空间地层环境温度控制

设备振动信号的非线性检验方法及其应用

本文引入了利用时间序列的延时重构,然后采用延时方差及替代数据的时间序列非线性的检验方法,并将该方法应用于设备故障信号的非线性检验.通过数值实验及与传统方法对比结果表明,延时矢量法是一种有效、直观的非线性检验方法,对噪声信号具有很强的鲁棒性,而对非线性信号具有很高的敏感性.采用该方法对设备振动信号进行非线性检验,检验结果与实际情况相符.

会议

设备振动信号非线性检验非线性时间序列分析

时滞广义系统稳态最优估值器

本文首次给出了带有观测时滞的广义系统的稳态最优估值器.首先引入观测重组序列,给出了一种不需要状态增广即可处理带有观测时滞系统的方法,通过广义系统的标准分解得到最优估值器.进一步出于简化计算的考虑,给出稳态最优估值器.

会议

广义系统时滞稳态估值器

基于复参数最小二乘估计的逆变器输出信号处理

本文研究了复参数最小二乘估计方法,提出了一种加权遗忘因子的复参数最小二乘估计方法(WFCRLS).通过对逆变器输出信号的分析变换获得信号的数学模型,利用WFCRLS实现了逆变器输出信号的谱估计,仿真结果表明本文方法的有效性.

会议

复参数最小二乘估计逆变器谱估计信号处理

一种新的近似公平的路由器拥塞控制策略

随着网络应用的多样化,不响应流占据了相当比例,这些不响应流在原有的队列管理机制下将会获得较大带宽.总结了各种已有队列管理机制的不足,针对不响应流的特征提出了一种新的路由器拥塞控制选择性丢弃策略.在满足低带宽流需求的基础上,使响应流和不响应流可以公平地分享带宽.最后利用网络仿真软件对新的算法和其它几种算法进行了比较,说明了新算法能够明显提高公平性,并有较好的扩展性和适应性.

会议

拥塞控制不响应流选择性丢弃近似公平队列管理路由器

基于无监督聚类的PU文本分类方法

以正例(P)和未标识实例集(U)训练分类器的文本分类算法(PU文本分类)是解决某些机器学习中训练样本获取代价过大、尤其是反例样本较难获取的实际问题。而传统的分类算法大都需要正例和反例数据集才能取得良好的效果,因此要使用传统的分类方法来解决面向PU的分类问题,U集中可信反例的提取是分类器能够取得良好效果的关键.提出了有效的可信反例提取算法(基于聚类的可信反例提取算法)——CBRN,并对已有的PU文本

会议

无监督聚类PU支持向量机文本分类未标识实例集训练分类器机器学习训练样本获取

一种新的DNA序列重复片段的查找算法

寻找DNA序列中的重复片段是DNA序列挖掘中的一项重要的研究内容,它是基因分析的一个重要问题。通常的方法采用特定的索引结构如后缀树、后继数组等,算法效率有待提高.提出一种新的索引结构,并在此基础上提出了MSATR算法。MSATR算法可以适用于各种不同相似度定义的DNA重复片段的查找.分析和实验表明,MSATR算法时间和空间复杂度为O(n).实验结果表明,MSATR算法有较好的查找效率,并且MSAT

会议

DNA序列挖掘相似性重复片段片段相似度MSATR算法空间复杂度

基于滑动窗口的概率数据流上的聚集查询

概率数据流是传统数据流的泛化与扩展.在传统的数据流中,每一项都是给定值域内的一个确定值,又被称为确定性数据流.而对于概率数据流,每一项都是一个随机变量,是定义在值域上的概率分布,因此被称为概率数据流.这种新型的数据流模型对于处理概率数据、不确定数据及模糊数据等有着十分重要的作用,在数据清洗、数据集成、多传感器网络等领域有着广泛的应用。首次给出了基于滑动窗口的概率数据流上的聚集查询算法,解决的聚集查

会议

概率数据流聚集查询滑动窗口数据清洗数据集成

一种基于乐观裁剪策略的挖掘数据流滑动窗口上闭合频繁项集的算法

在数据流滑动窗口上挖掘闭合频繁项集是数据流挖掘研究领域的一个热点问题,现有的算法如Moment算法存在着使用空间过大的问题。提出了基于Moment的OP-Moment算法(OP指乐观裁剪策略),使用OP-CET数据结构维护滑动窗口上的闭合频繁项集信息.该算法使用乐观裁剪策略来裁剪大量的非频繁节点,并在每个频繁节点上增加一个属性以跟踪被乐观裁剪的非频繁子节点的最大支持度变化情况;算法使用位图来记录滑

会议

闭合频繁项集数据流滑动窗口乐观裁剪策略MomentOP-Moment算法

一种面向网络入侵检测的特征选择方法

在网络入侵检测中,大量的特征增加了算法在时间和空间上的消耗,其中不相关或冗余的特征还可能导致检测精度下降.针对这个问题,提出了一种面向网络入侵检测的特征选择方法。该方法基于粗糙集理论和遗传算法,从信息论角度定义特征的重要性,并将此度量作为启发式信息对遗传算法的初始群体进行优化,在提高算法收敛速度的同时取得了更优化的结果.在KDD CUP 99数据集上检验了方法的有效性,并使用SVM分类器对选择的特

会议

数据挖掘网络入侵检测特征选择粗糙集遗传算法SVM分类器

一种面向科学数据的通用排重模型

与本文相关的学术论文