论文部分内容阅读
数据清洗是保证数据质量的重要步骤.由于人类的活动通常带有一定的主观性与情绪性,因此现实中部分数据往往存在不合理性甚至错误.而此类不合理数据常具有不确定性、模糊性与隐藏性,这给数据清洗带来了困难.传统的数据清洗方法对此类数据难以充分发挥作用.结合区间值模糊集理论与匹配函数提出一种区间模糊匹配函数方法,构建区间模糊匹配算法来清洗数据、提高数据质量,并将其应用在问卷调查数据中.实验结果表明本算法具有较高的准确度及运行效率,适应处理数据中的不合理数据.