数据仓库中重复记录清理算法研究

来源 :信息化纵横 | 被引量 : 0次 | 上传用户:ufo747
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对重复记录清理中的"排序、识别、合并"算法存在的问题进行了改进。改进后的重复记录清理算法在保证记录匹配率的情况下有效地提高了记录排序的效率;在重复记录识别时,考虑了匹配字段的文字数量、在2个字段中出现的频率、在记录中各字段的重要性(权重)、中文字段的语义和语义重点偏后等5个因素;合并重复记录时采用了聚类和实用算法并用的策略,有效地提高了数据仓库中重复记录清理算法的准确性和健壮性。
其他文献
在分析已有算法的基础上,利用增量法与分治法相结合的思想,实现了直接对空间散乱点的三角剖分。通过对空间散乱点的三角剖分,最终得到满足所要重建物体的三角网格模型,且网格非常均匀,该模型直观、清晰地再现了实体模型。实验证明了算法的可行性。
2010年中国无线世界暨物联网大会(http://www.conference.cn/w-world)将于2010年11月18-19日在北京举行。
为有效解决多链路共享令牌缓冲流量调度系统负载较高的问题。设计了一种多链路共享令牌缓冲池流量调度模型,提出“费用”指标以更准确地刻画系统负载状况,基于费用最优研究了令
智能型混合信号连接解决方案(Smart Mixed-Signal ConnectivityTM)领先半导体厂商SMSC公司(NASDAQ:SMSC)推出新产品LAN7500,这是一款领先业界的全集成高速USB2.0-to-Gigabit以太网
提出了一种适合工业自动化的无线传感器的网络结构,设计了无线传感器网络的终端节点模块以及工业现场常用的二次仪表的通信问题,实现了工业无线网络和有线网络的灵活配置、网
针对人体生理参数采集特点,设计了基于CC2430和TinyOS的星型无线传感器网络。实现了传感器节点和中心节点间CSMA/CA协议通信。以温湿度数据采集为例,采用nesC语言开发了节点
基于国产STC12C5A62S2的温室多参数控制系统的应用技术(包括软硬件设计),该系统通过RS-485总线与PC上位机通信,实现了低成本、多参数、远距离、多节点数据采集与控制的全部国产化。
近年城市交通问题凸显,地铁作为解决城市交通问题的重要方式,其安全稳定运行显得尤为重要。地铁综合监控系统是整个地铁系统安全可靠运行的重要保障,对其可靠性进行有效的评
针对传统有线粮情监控系统存在的缺陷,提出"平面分离、上下贯通"的无线粮情监控网络的设计思路,实现了设计目标的基本单元测量杆的功能结构,规划了基于Zigbee的无线粮仓温湿度监控网络。根据节能需求将无线监控网络中的节点分为测量节点和路由节点,完成了测量节点的接口电路和主程序设计,并对测量节点中的关键技术进行了阐述。
在对语音通话中回声产生的机理进行分析的基础上,研究了回声消除的原理。介绍了FM2010芯片的主要技术特点,并通过设计电路,结合QQ软件进行实验,运用FM2010芯片实现了回声的消除。