移动综资系统数据清洗方案的设计与实现

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:roamer_wsj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息化发展日趋成熟的今天,数据作为企业的无形资产,企业通过对累积数据的挖掘和分析,可以为公司的决策者提供重要的信息,进而可以为用户提供更好的服务,同时也提升了用户对企业的忠诚度和企业的经济效益。而数据挖掘与数据分析的前提是保证数据的准确无误,或者通过识别并删除错误的数据来避免影响数据分析的结果,所以数据清洗是进行数据挖掘与数据分析时的首要任务。在行政领域中,不正确或不一致的数据可能会导致错误的结论并误导公众和私人投资。例如,政府可能希望分析人口普查数字,以确定哪些地区需要进一步的支出和投资基础设施和服务。在这种情况下,获得可靠的数据以避免错误的财务决策非常重要。而在商业领域中,不正确的数据可能代价高昂。许多公司使用客户信息数据库记录联系信息、地址和偏好等数据。如果地址不一致,公司将承担重发邮件的成本甚至失去客户的代价。所以如何处理和管理好数据,提升数据质量已成为众多企业的首要任务。本论文是以河北移动通信公司综合资源管理系统内的家庭客户数据清洗为主,通过Python语言结合MySQL数据库实现了对家庭客户信息表的需求分析、方案设计、方案实现、方案修正,最终实现了对其数据清洗的目的。即首先针对家庭客户数据进行分析错误来源,错误原因,修正方法,检验标准,并根据该领域的特点设计了标准地址库的标准地址表,原始地址表及受控词表三部分,最后将得到的数据载入标准地址库中。对于数据清洗过程中出现的特定问题提出了具有针对性的解决方法,比如通过中文字符串相似度来判定入库的数据与原始数据的相似性,对于相似性较低的数据在原始地址表进行标记;通过中文分词技术实现对部分返回结果进行中文分词;通过网络爬虫技术实现了对石家庄市的小区户数的数据抓取,并与原始数据进行比对分析,关于数据质量给出了相关建议。最后根据建立的标准地址库,将其应用到了集团客户的数据清洗问题及装机能力的应用上,实现了对集团客户的数据清洗以及解决了由于小区异名造成的无法匹配到对应小区的问题,很好的达到了最初方案的设计要求,解决了实际问题。
其他文献
本文分析了数字化微课的特点及应用于大学生素质拓展中的意义,提出了数字化微课在素质拓展中的应用策略,并结合国家教学资源库中的数字化微课资源,对大学生素质拓展的开展实
低分子量谷蛋白亚基(LMW-GS)与小麦品质密切相关。为给宁夏小麦的品质改良提供参考,应用STS分子标记,对宁夏98份小麦品种Glu-A3和Glu-B3位点的等位基因变异类型组成进行检测和
文章首先介绍了企业的经营风险以及经营风险的特点后,分析了企业经营风险出现的原因,并在此基础上提出了控制企业经营风险的对策。
电力资源、电力系统的稳定性是保障我国经济健康稳定发展的重要条件,如果电力系统对于电力的供给出现了问题必然会影响我国国民经济的稳定性,所以提高电力系统的可靠性十分必
黄骅坳陷孔西地区孔古3井奥陶系地层及孔古4井中生界地层相继获工业性油气流,是几十年来华北地区古生界油气藏工业性勘探的首次突破,揭示出在黄骅坳陷以及华北地区古生界油气藏具
肉鸡场内鸡舍的布局是否合适,直接影响基建投资、经营管理、生产组织、劳动生产率等。本文主要介绍了鸡舍布局应遵循的原则及鸡舍建设时的排列、朝向、间距等应注意事项。
<正>数学是研究现实世界的空间形式和数量关系的科学。对幼儿来说,学数学是他们成长与发展过程中的一种自身需要。数学离不开生活,生活中处处有数学。现代教育观指出:数学教
文章具体介绍了旱田自动取苗移栽机的发展现状及目前在生产实践中常用的自动取苗机构,深入讨论其优缺点,同时阐明在农业机械自动化研究中常用软件及优缺点,并且阐述未来移栽
<正>《江苏水利》杂志本刊为国内外公开出版发行的科技(指导)综合类期刊,已全文收录于中文科技期刊数据库、中国核心期刊(遴选)数据库等国内重要期刊数据库。为加强编辑出版
目的经皮穿刺射频消融(RFA)广泛应用于肝癌的治疗,本研究分析肝癌RFA术后的MRI表现及疗效,以提高肿瘤的完全消融率。资料与方法回顾性分析7 9例(共11 4个病灶)肝癌患者经皮R