论文部分内容阅读
在信息化发展日趋成熟的今天,数据作为企业的无形资产,企业通过对累积数据的挖掘和分析,可以为公司的决策者提供重要的信息,进而可以为用户提供更好的服务,同时也提升了用户对企业的忠诚度和企业的经济效益。而数据挖掘与数据分析的前提是保证数据的准确无误,或者通过识别并删除错误的数据来避免影响数据分析的结果,所以数据清洗是进行数据挖掘与数据分析时的首要任务。在行政领域中,不正确或不一致的数据可能会导致错误的结论并误导公众和私人投资。例如,政府可能希望分析人口普查数字,以确定哪些地区需要进一步的支出和投资基础设施和服务。在这种情况下,获得可靠的数据以避免错误的财务决策非常重要。而在商业领域中,不正确的数据可能代价高昂。许多公司使用客户信息数据库记录联系信息、地址和偏好等数据。如果地址不一致,公司将承担重发邮件的成本甚至失去客户的代价。所以如何处理和管理好数据,提升数据质量已成为众多企业的首要任务。本论文是以河北移动通信公司综合资源管理系统内的家庭客户数据清洗为主,通过Python语言结合MySQL数据库实现了对家庭客户信息表的需求分析、方案设计、方案实现、方案修正,最终实现了对其数据清洗的目的。即首先针对家庭客户数据进行分析错误来源,错误原因,修正方法,检验标准,并根据该领域的特点设计了标准地址库的标准地址表,原始地址表及受控词表三部分,最后将得到的数据载入标准地址库中。对于数据清洗过程中出现的特定问题提出了具有针对性的解决方法,比如通过中文字符串相似度来判定入库的数据与原始数据的相似性,对于相似性较低的数据在原始地址表进行标记;通过中文分词技术实现对部分返回结果进行中文分词;通过网络爬虫技术实现了对石家庄市的小区户数的数据抓取,并与原始数据进行比对分析,关于数据质量给出了相关建议。最后根据建立的标准地址库,将其应用到了集团客户的数据清洗问题及装机能力的应用上,实现了对集团客户的数据清洗以及解决了由于小区异名造成的无法匹配到对应小区的问题,很好的达到了最初方案的设计要求,解决了实际问题。