一种基于属性权值分组聚类的相似重复记录检测方法

来源 :宁波职业技术学院学报 | 被引量 : 0次 | 上传用户:aptxkid2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高数据集中相似重复记录的检测效率,提出一种基于属性权值的分组聚类算法。该方法在记录集中选取特征属性,通过设定的权值对记录进行聚类,在形成的数据子集中进行字段匹配和记录匹配,来识别相似重复记录,并给出了相关算法。实验表明,该方法能减少字段的匹配次数和记录的匹配范围,节省运行时间,具有较高的查全率和查准率。
其他文献
对苎麻根际土壤浸提液进行了检测分析,以对苎麻根系分泌物的组成进行初步探索。以乙酸乙酯和正己烷为浸提剂浸提“湘苎3号”、“多倍体1号”、“中苎1号”、“湘苎7号”和“R0
项目主题式是以项目为载体、以主题工作任务为单位来组织与实施课程教学的新模式,该模式既注重项目的系统性,又保证了知识体系的完整性。本研究针对当前课程模式存在的问题,从课
宁波作为沿海发达城市,信息流通频率高,信息量大并且错综复杂,大学生群体对信息的接受能力较强,是网络政治参与的主体之一。通过对宁波高职学生网上政治参与现状的调查,分析高职学
针对当前网络舆情监测引导方面出现的一系列问题,本文设计实现了网络舆情监测系统,通过系统设计和应用,为地方政府及时高效的进行网络舆情监测分析、进一步做好网络形象构建
随着环境问题的日益凸显,麻纤维微生物脱胶技术凭借其污染小、能耗低而逐渐被人们重视,并不断应用于生产实践。菌种是生物脱胶过程中的关键因素,随着对其认识与研究不断深入,
摘 要: 高职院校课程体系建设主要以培养大学生的应用能力为主,对课程的改革和创新都是以提高学生“受雇能力”为核心目标。对高职院校课程体系建设的策略进行研究对于高职人才培养改革转型以及高职院校的未来发展具有重要的理论和现实意义。在结合我国高职课程建设的现实国情基础上,深入分析并借鉴了英国诺丁汉大学在课程体系建设方面的成功做法,以期促进我国高职院校的课程体系从一维知识教育向知识、技能、价值观的三维教育
期刊
随着我国税务法律的不断完善,在企业和个人的经济活动中税法的影响也越来越大,根据对会计岗位就业需求调查及相关反馈的毕业信息得知,税务师事务所助理人员和税务代理是中小企业
为优化坝上地区水浇地种植业结构,在节水灌溉栽培条件下,采取四因素正交旋转组合设计,研究了施用氮、磷、钾肥对油用亚麻产量作用效果。油用亚麻从出苗后的整个生长期降水量仅14
研究了抗生素对亚麻下胚轴愈伤诱导及芽分化的影响。结果表明:在以潮霉素为抗性选择剂时,低浓度潮霉素已严重抑制愈伤的形成,25mg/L的潮霉素为亚麻下胚轴愈伤形成及芽分化的较合