论文部分内容阅读
随着警务信息化不断推进,大量警务信息系统的应用,在其中积累了大量的案件和嫌疑人等公安数据。海量的公安数据存储在不同的数据源中,且存在非常大的数据质量问题,可能是不同的格式,难以综合分析;由于不同业务系统采集和管理的侧重点不同,一类数据源中所体现的信息是不完整的,在独立数据源中进行分析时由于数据的不完整或者缺失带来判断失误、线索中断等;大量的分析依靠人工的、重复性的工作,导致分析人员将大量的精力集中的情报线索的获取、整理、清洗、比对等重复性劳动中,而不能将主要精力集中在业务层面的分析上;高价值的情报往往极少,而且其价值越高,通常时效性越强,而当前的分析手段导致了获取情报需要较长的时间,在领导层和决策层进行分析的时候,需要进行大量的手工报表统计,不但工作量大而且分析过程较慢,不能准确及时的指导工作。数据挖掘技术是从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术,在科学研究、银行、电信、保险、交通、零售等很多领域都得到了广泛的应用。然而,由于公安数据的敏感性和机密性,数据挖掘技术在警务综合信息系统上的研究与应用上却滞后于其他领域。因此,大量的公安数据无法得到有效的应用,不能转化为知识为公安决策提供支持。本文以警务综合信息系统为研究背景,分析了公安数据的数据源与数据结构,使用CDC、Kettle数据抽取工具,对各种数据进行数据抽取、清理、集成、转换、归约,建立公安数据仓库;在数据挖掘分析过程中引入数据立方技术,分析数据立方的几种建模模式,并通过对公安数据立方体进行局部物化处理,提高挖掘分析的处理速度;运用关联规则挖掘、决策树分析、相关案件挖掘等数据挖掘算法,结合公安数据进行应用研究。对公安数据中的出入境数据挖掘频繁项集,根据目标属性产生关联规则;对出入境数据生成决策树,然后通过剪枝等方法简化决策树,生成决策规则;对公安数据中的案件数据进行转换和聚合,通过相似度矩阵方法挖掘相关案件;最后,在警务信息系统中研究对公安数据的决策分析与多维分析的设计与实现。