论文部分内容阅读
随着政府部门政务信息化程度的进一步提升,大量的信息开始以电子数据的形式存储起来,并被信息系统统一管理。但大量的文本信息仍以文档的形式被使用,文档中大部分的信息未能被深入使用。本文以国家社会保险审计工作的实际需要为出发点,深入研究社会保险领域文本信息知识发现的途径。本文首先研究了国内外数据挖掘领域关联规则挖掘的研究成果,总结了文本关联分析方法的一般过程。其次,针对文本数据的非结构化的特点,分析在处理文本数据中存在的困难和问题,并就文本预处理工作中的方法进行了讨论。再次,在文本预处理的基础之上,讨论文本特征化表示结构上的关联分析的方法,以及结合审计知识库的语义关系特点,提出基于审计知识库的文本关联分析方法。最后分析了文本关联规则在审计领域中的应用。基于社会基本养老保险的相关文本数据,对本文中提出的文本关联分析策略的实际效果进行验证,基于审计知识库的文本关联分析系统具备了领域内的适用性。