文本关联分析中频繁项集挖掘算法的研究与改进

来源 :太原理工大学 | 被引量 : 7次 | 上传用户:renalee9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代为我们带来了海量数据,如何帮助人们有效地收集和选择感兴趣的信息,并且在日益增多的信息中发现潜在有用的知识已经成为信息技术领域的热点问题。面对这样的挑战,数据挖掘和知识发现技术应运而生,并得以蓬勃发展。文本关联分析是文本挖掘领域的重要挖掘任务之一,它是从文档集合中找出不同词语之间的关系的过程。其多数方法是从数据挖掘领域的关联规则挖掘借鉴而来。首先,本文对基于关键字的文本关联分析的特点进行了研究,它与传统关系数据库项集间的关联分析类似。可以把文本看成事务、文本中的关键词看成事务中的项,这样文本数据库中关键字的关联分析问题就转化成事务数据库中事务项的关联分析问题。但由于文本数据库的高维稀疏性,对不同的文本集使用相同的最小支持度阈值而产生的频繁项集,其规模大小相差甚远。因此阈值的设定成为文本关联分析的一个难点。其次,本文重点研究了N个最频繁项集挖掘算法—IntvMatrix。该算法使用了阈值动态调整策略,这样就解决了阈值难以设定的问题,从而可以通过指定的频繁项集数目N来控制产生频繁项集的规模。但其缺点是构造倒排矩阵容易造成空间上的浪费,并且倒排矩阵中建立项之间的联系又需要多次扫描数据库,造成了时间上的浪费。然后,针对IntvMatrix算法存在的问题,本论文提出了一种基于改进的FP-Tree挖掘N个最频繁项集的算法。先对文本数据库的事务项以及整个数据库进行排序,同时将非频繁项删除,这样就大大减少了生成FP-Tree时搜索共享前缀的时间。接着在改进的FP-Tree的基础上来构造局部频繁项的COFI-Tree,就可以省去对非频繁项集的扫描。本算法依然采用了阈值动态调整这一策略,从而在技术上为产生N个最频繁项集作了保证。最后,通过在同一文本数据库的基础上设置不同频繁项集数N,对改进后的算法与IntvMatrix算法进行分析与比较。实验结果证明,由于采用改进后的FP-Tree来构造局部COFI-Tree,以及对算法中数据结构的优化,在挖掘文本数据库时,算法的时间和空间利用率得以提高。
其他文献
随着互联网络的不断发展,网络安全的问题也越来越受到大家的重视。黑客工具和网络攻击手段的发展极为迅速,导致更多的网络和用户遭受损失,其中分布式拒绝访问攻击(DDoS),因具
随着IP视频会议、95588电话银行业务、网上银行等多媒体业务的应用,山西省工商银行网络系统已经不仅仅是单纯承载柜面业务处理数据的工具,计算机之间(包括办公用机及业务应用
无线传感器网络是一种由大量的集成传感器、数据处理单元和短距离无线通讯模块的节点组成的以数据为中心的无线自组网络,其目的是协作感知、采集和处理网络覆盖区中各种环境
当今的银行交易业务系统规模和复杂性与日俱增,业务的上线要求却越来越严格、急迫,一旦出错将造成不可估量的损失,目前业内普遍情况是采用手工测试,当上线时间急迫时测试质量
形式化B方法建立在严格的数学基础上,通过严格的验证技术证明其正确性,尤其对大型复杂系统的描述是非常有用和正确的。它是一种详细规格说明、设计和系统编码的方法。通过B方
近几年来,社会经济的发展促使道路交通迅速发展,机动车数量不断增加。为了解决地面交通迅速发展所引发的各种问题,需要在不破坏路面的情况下使用计算机结合图像处理、模式识
卫星在轨时,为了获取高分辨率的图像,卫星成像平台的振动再加上相机与拍摄对象之间存在的相对运动,将引起目标场景在CCD靶面上形成像移,致使图像的分辨率与对比度下降。因而为了
本文在对数据仓库的理论和OLAP技术进行了认真学习和研究的基础上,设计开发了华北电力大学成人教育学院招生信息多维数据分析系统。该系统以成人高考网上招生系统的事务级数
随着信息技术的迅猛发展,新的教学媒体不断涌现。继多媒体之后,教育技术领域又出现了一种新型教学媒体——虚拟现实技术(Virtual Reality Technology)。虚拟现实技术能够非常
网格计算是近年来得到快速发展的广域网络计算技术。网格计算环境相对于一般网络计算环境来说有着更为复杂的特征,如存在多管理域和站点自治,系统的动态性、异构性和通信延迟