基于Meta图的关联规则自然语言表示

来源 :河北师范大学 | 被引量 : 2次 | 上传用户:zhangchaoyi222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘应用广泛,关联规则挖掘已成为数据挖掘领域的一个重要研究方向。然而,大部分关联规则的表示方法都需要用户在数据挖掘领域具备一定的专业知识才能理解,不利于普通用户对关联规则所表示的内容进行充分的理解和应用。本文首先在传统Meta图基础上,提出了一种基于关键词属性匹配的关联规则Meta图表示方法;然后将以Meta图表示的关联规则通过领域知识库来进一步转化成自然语言,使普通用户也能理解其含义,从而满足不同类型用户的需求。本文的主要工作如下。1)提出了一种基于关键词属性匹配的关联规则Meta图表示方法,在传统Meta图的基础上,对规则中不仅存在属性之间的联系,还同时存在支持度和置信度的特点对Meta图进行改进,并用其表示关联规则。首先,提取关联规则前件和后件中的关键词;借助词语属性库,获取关联规则中关键词的词性和概念属性值;最后,通过关键词词性确定其在Meta图中的结点位置,通过关键词的概念属性关系构建Meta图中对象之间的关系连接,并以前件和后件连接点的大小和灰度值来表示支持度和置信度。2)提出了一种将Meta图表示的关联规则转换成自然语言文本的方法。首先,建立相关领域知识库,实现了词汇扩充、句法定义和子句合并;其次,基于领域知识库,将Meta图表示的关联规则转化成树状文本结构,并进一步通过文本的微观规划和表层实现完成自然语句生成所需的词汇与句子成份选择,输出自然语言句子;最后,对自然语言文本进行语句和语法修饰,生成最终的自然语言文本。3)设计和实现了基于人口数据的关联规则自然语言表示原型系统。基于原型系统将人口数据库中挖掘出的关联规则转换成自然语言。运行结果表明,基于本文提出的关联规则表示方法设计的系统能将关联规则转换成较为流畅的自然语言文本,易于用户理解,具有较强的实用价值。
其他文献
P2P技术使当今的互联网发生了日新月异的变化,它改变了以服务器为中心的传统网络模式,提供了一种全新的获取资源的方式,得到了广泛应用。然而,P2P应用却带来了网络流量的急剧增长
近年来,随着移动应用软件数目逐渐庞大以及软件构架的日益复杂化,软件测试在确保软件质量方面发挥着重要作用。接口测试作为测试系统组件间接口的一种测试,具有成本小效率高
超分辨率图像重建技术是指从低分辨率图像序列中重建出一幅高分辨率图像,这些图像有噪声、欠采样并且模糊但是相互之间具有互补信息。这项技术不需要改变现有的硬件设备,只通过
近年来,互联网的迅速发展和网络音频数据量的急剧上升使得对网络音频数据的分类处理需求日益复杂。网络多媒体数据的获取与预处理则是各种音频处理应用的共同基础。本文的研究
随着Web Service技术的发展,面向服务架构的思想不断成熟,把SOA架构思想引入到文本信息处理系统是一个很好的尝试。因为SOA架构思想是面向服务的,系统的业务逻辑可以完全以第三
嵌入式分布式软件具有实时性、计算单元分布等特点,传统的串行调试方法和技术难以直接应用于该类软件的调试,如何针对该类软件特点设计和实现有效调试是软件调试中的重要问题。
1988年蔡少棠教授提出了细胞神经网络(Cellular neutral network,简称CNN),这种网络结合了人工神经网络和细胞自动机的优点。CNN是一种局部互联的神经网络变体,整个网络由大规
因为没有强大的数据挖掘工具协助人们去理解数据,挖掘潜在的有效信息。海量未被挖掘数据中所潜藏的有效信息催促着数据挖掘技术的诞生。聚类分析是最为有力的数据挖掘工具,它
移动Ad Hoc网络是一组带有无线收发装置的具有路由功能的节点组成的无中心、自组织的多跳无线网络,在军事、偏远野外、救灾抢险等领域有极为广泛的用途。由于移动终端本身由电
数字阅读已然成为全民阅读的主流方式之一。海量电子图书的有序整理、存储及提供更为友好的搜索、阅读体验成为一个重大的挑战。元数据是解决该难题的关键。完备的电子图书元