论文部分内容阅读
数据挖掘应用广泛,关联规则挖掘已成为数据挖掘领域的一个重要研究方向。然而,大部分关联规则的表示方法都需要用户在数据挖掘领域具备一定的专业知识才能理解,不利于普通用户对关联规则所表示的内容进行充分的理解和应用。本文首先在传统Meta图基础上,提出了一种基于关键词属性匹配的关联规则Meta图表示方法;然后将以Meta图表示的关联规则通过领域知识库来进一步转化成自然语言,使普通用户也能理解其含义,从而满足不同类型用户的需求。本文的主要工作如下。1)提出了一种基于关键词属性匹配的关联规则Meta图表示方法,在传统Meta图的基础上,对规则中不仅存在属性之间的联系,还同时存在支持度和置信度的特点对Meta图进行改进,并用其表示关联规则。首先,提取关联规则前件和后件中的关键词;借助词语属性库,获取关联规则中关键词的词性和概念属性值;最后,通过关键词词性确定其在Meta图中的结点位置,通过关键词的概念属性关系构建Meta图中对象之间的关系连接,并以前件和后件连接点的大小和灰度值来表示支持度和置信度。2)提出了一种将Meta图表示的关联规则转换成自然语言文本的方法。首先,建立相关领域知识库,实现了词汇扩充、句法定义和子句合并;其次,基于领域知识库,将Meta图表示的关联规则转化成树状文本结构,并进一步通过文本的微观规划和表层实现完成自然语句生成所需的词汇与句子成份选择,输出自然语言句子;最后,对自然语言文本进行语句和语法修饰,生成最终的自然语言文本。3)设计和实现了基于人口数据的关联规则自然语言表示原型系统。基于原型系统将人口数据库中挖掘出的关联规则转换成自然语言。运行结果表明,基于本文提出的关联规则表示方法设计的系统能将关联规则转换成较为流畅的自然语言文本,易于用户理解,具有较强的实用价值。