基于SNM算法的大数据量中文商品清洗方法研究

来源 :江苏科技大学 | 被引量 : 1次 | 上传用户:zjh73
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济的快速增长,数据量快速增加,越来越多的数据处理技术随之出现,例如数据收集、存储等。然而当企业决策人员希望使用这些海量数据为他们的商业决策提供支持时,却经常由于数据质量的问题而难以实现,使得决策者无法在最小的时间内从大量数据中提取出有效信息来帮助他们做出重要决策。可见数据质量问题不但影响多数据源的数据集成,也使得决策者在适当的时间和地点缺少正确格式的数据。由于数据仓库的数据来自多种业务数据源,这些数据源可能存储在不同的硬件平台上,使用不同的操作系统,不可避免地产生很多的数据质量问题,主要表现为:(1)相似重复记录;(2)异常记录。因此,数据清洗技术得到国内专家学者的广泛关注,他们还针对中文数据改进或提出了相应的清洗方法。针对这些问题,本文通过搜集国内外相关资料,在传统邻近排序算法(Sorted-Neighborhood Method,SNM算法)的理论基础和实际应用的基础上,对数据集进行预处理,采用补全分割的方法对数据集进行标准化的处理。以下几点是本文所涉及到的主要内容:(1)对关于处理数据的相关知识做详细的描述,对国内外研究现状做了简单概述,介绍了数据清洗,数据质量,重复记录等相关概念。(2)通过介绍传统的SNM算法理论,论述其算法的缺陷,针对缺陷进行改进,本文采用补全与分割法对数据集进行预处理。(3)对商品中的数据集信息进行中文分词,本文先介绍常用的中文分词进行简单的介绍,然后对部分测试数据进行实验,并对结果进行分析,对改进后的SNM算法进行中文分词,执行效率有明显的提高。(4)将改进算法应用到实际问题里,使用改进后的SNM算法对运营商的五万条商品数据集进行清洗。通过实验结果显示,SNM算法在相同运算环境下对中文数据的清洗在执行时间上有明显的提高,在相似重复记录消除方面,改进后的SNM算法具有明显的优势。
其他文献
动车组在人们的出行中发挥着越来越重要的作用,其高速性和舒适性成为众多旅客的出行选择。动车组结构的疲劳强度是否满足要求是保证列车行车安全的前提,动车组在高速运行时,
《經律異相》成書於南朝梁,作爲現存成部最早的佛教類書,與所出原經間存在大量異文,具有重要的語料價值。本文以《經律異相》所引北傳四阿含經與其原經異文爲研究對象,利用語
氯化聚氯乙烯(CPVC)材料具有较好的耐溶剂性能、耐腐蚀性、化学稳定性和热稳定性能,是常用的多孔膜制备材料之一。然而纯CPVC微滤膜存在力学性能不高、表面开孔度低、孔隙度低、抗污染性能差等缺点。如何获得高性能的CPVC微滤膜是其在水处理应用中必须解决的问题。因此将CPVC基膜与非织造布进行复合改善膜的力学性能,同时添加功能性组分提高膜的渗透性能和抗污染性能,对CPVC微滤膜在污水处理中的使用具有重
目的:探讨Notch1信号通路在介导触液神经元增殖中的作用。方法:1、提取出生24h内C57BL/6小鼠高位颈髓中央管区周围神经组织,经流式细胞分选技术分选、纯化触液神经元;2、观察体外悬浮培养的触液神经元成球情况,并连续传代。免疫荧光检测神经球是否表达神经干细胞标志物;3、通过EDU检测试剂盒、CCK-8检测试剂盒、免疫荧光标记增殖标志物Ki67三种方法检测第3代触液神经元所形成的神经球增殖能力
水稻类病变突变体在无明显逆境情况下自发出现细胞程序性死亡,这些突变体具有与超敏反应(HR)相似的生理生化特征,且其中部分突变体对病原物的抗病性较野生型得到提升。T34和T
作为一种毁灭性土传的病害,由尖孢镰刀菌古巴专化型4号生理小种(Fusarium oxysprum f.sp.cubenserace4,FOC4)引起的香蕉枯萎病已在广西部分香蕉产区零星发生,正处于病原菌菌
密排六方结构的稀有轻金属铍(Be)作为一种特殊的结构功能材料,在核能、航空航天等领域有着重要的应用前景,如用于聚变堆第一壁材料、惯性导航器件等。金属铍具有众多独特优异
火灾是当今国内外发生频率高、危害比较大的的灾害之一,它的存在严重威胁了人类的的生命财产安全,也造成了整个社会的经济损失。所以及时、准确的检测到火灾的发生是一件对社
地震是人类已知的最为严重的突发性自然灾害之一,地震发生时伴随着巨大的能量释放,给人类带来严峻的生命威胁和巨大的经济损失。近场地震区域距离地震断层破裂带较近,地震能
流量控制在保证网络关键业务服务质量方面起到了重要作用。但随着网络带宽和网络流量的日益增加、新业务的不断涌现和发展,流量控制面临着更复杂的问题和更高的挑战。本文研