基于模糊综合评判的相似重复记录清洗方法

来源 :北京信息科技大学学报:自然科学版 | 被引量 : 0次 | 上传用户:freeman_1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似重复记录清洗对于提高数据仓库的数据质量有极其重要的意义,字段匹配算法是最常用的检测算法之一。针对该算法中属性权值确定主观性过强的问题,提出基于多用户模糊综合评判确定属性等级并根据用户评价结果计算属性权值的方法。在此基础上,进一步将属性切分为原子,通过计算原子相似度进而计算属性相似度,最后进行记录判重。实验结果表明该方法能较客观地反映属性的重要程度,通过切分属性为原子并判重也进一步提高了检测的精度。
其他文献
在猪的饲养过程中。有的养猪户知道给猪添加适量的骨粉。对其生长发育和健康有利。但添加骨粉并不一定能达到给猪补充钙的目的。
蟾酥为蟾蜍(俗称癞蛤蟆)耳后腺及皮肤分泌物经加工而成,蟾酥所含甾体物、生物碱等活性物质具有解毒、镇痛、抗肿瘤等多种功能而被广泛应用。目前药材市场上供不应求,人工养殖蟾蜍
探讨光纤传感中布里渊散射频率与应力的变化关系。在现有的布里渊散射频率理论公式的基础上,讨论线偏振光以不同角度入射到保偏光纤时,布里渊散射频率与应力变化的关系,得出
针对气体绝缘金属封闭开关设备(Gas Insulated Switchgear,GIS)闪络故障检测时精度低,检测费时费力的问题,设计了一种新型的GIS闪络故障监测系统,利用超声波检测法实现故障点的定位
基于位置指纹的WiFi室内定位技术是当前室内定位的研究热点。通过自学习补偿结合伪距绝对定位算法,提出基于自学习补偿的室内定位算法,并在客流分析系统中应用该算法进行客流
我国将重点扶持粮食产业、良种畜牧水产业、园艺产业、农产品加工业、农村服务业等产业发展,以进一步培育我国“一村一品”主导产品和产业.促进现代农业发展。
记者从4月17日举行的第四期万家社区图书室援建和万家社区读书活动启动仪式上了解到,从今年开始到“十一五”期末,每年将有上千种农民“读得懂、用得上”的图书,无偿送到3万-5万
一、选好催肥牛:选择好催肥牛,关键在于发现瘦牛的催肥潜力。对于饲养管理不善、饲料质量低劣或劳役过度等原因所致的瘦牛可作为首选牛。切忌购买年龄过大、患有消化道疾病、传
为了提高叶轮的加工精度,对某单位研制的中小叶轮专用加工中心的摇篮式摆台结构的静、动态性能进行了分析,对其结构进行了改进。模态及静力分析表明,其变形量明显改善。
利用Taylor级数展开的方法,给出了带有初边值条件的一维伯格方程的紧致差分格式。数值算例验证了该格式具有空间4阶精度,时间2阶精度的性质。迭代算法和块追赶法的使用提高了