基于相关性度量的不确定数据频繁模式挖掘

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:junlintianxiap
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁项集挖掘作为数据挖掘过程中最基本的环节,一直是热门的研究领域之一。随着技术的进步、应用领域的不断扩展,在许多实际应用之中,例如网上商城的商品浏览信息、传感器网络、隐私保护、医院中医生的诊断数据和卫星图像数据等产生的数据可能是错误的或不完整的,由此可见不确定性数据普遍存在于现实生活中。针对确定性数据已提出了许多挖掘方法,但确定性数据与不确定性数据在计算上和语义上的差异导致了它们并不适用于不确定性数据挖掘。如何在不确定性数据库中发现有价值的知识,就得到了众多学者的广泛关注。由于对不确定数据库中有效频繁项集挖掘算法的需求日益增长,促使其成了至关重要的研究领域。本文的主要工作如下:第一,本文研究当前经典的关联规则和频繁项集挖掘相关算法,并总结了不确定数据的频繁模式挖掘算法,以探究针对不确定性数据库模式挖掘新的研究策略和解决方案。简单介绍了数据挖掘中不确定性数据的来源及针对不确定性数据的一般处理模型,并综述了目前两种不确定性数据频繁模式挖掘模型,以分析基于期望支持度模型和支持度概率模型的优缺点。第二,大多数不确定数据库中频繁项集的挖掘算法都基于支持度的限制来剪枝组合搜索空间,因而得到关联性很弱的频繁项集且对加权相关模式的挖掘效果不显著。针对加权不确定性数据,充分研究项集间的相关性和权重,本文提出一种新的策略:基于相关性度量的不确定数据频繁模式挖掘(UFPM-CM)。首先,本文采用一种新的树结构和一个针对树结构的新的度量来提高挖掘性能。其次,提出了新的不确定置信度度量来挖掘不确定数据库中的相关模式。最后,利用UFPM算法快速挖掘出相关性强的频繁模式。通过对两种不同类型的真实数据集Mushroom,Kosarak进行实验,将UFPM-CM算法与同类算法进行分析比较,研究结果表明本文所提出的策略在同等运行环境中产生了较少但极具价值的模式且其效率更好。
其他文献
<论语>中的"直"作为君子人格的一个基本特征,包含着"学"、"知"的前提.以事实解说<论语>中的"直",以家国伦理矛盾、德法冲突解释"直"都有一定的局限性."直"在<论语>中具有人性
企业集团的产生和发展除了它自身的原因,还需要有一定的外部环境。所谓企业集团的外部环境,就是企业集团与其外部各种因素的关系,是影响和制约着企业集团存在和发展的一切外部因
今年4—6月,我站门诊部共接收226例病鸡,呼吸系统疾病占172例。其中以新城疫、传染性支气管炎、传染性喉气管炎、支原体、传染性鼻炎、禽霍乱等,但以传染性喉气管炎和新城疫
夏商时期,酒是缔结天人之契的必要介质,其在使缔约仪式具有象征意义的同时,兼具权威性。周时,约和盟的缔结凭借酒的仪式性功用,使其在人间契约的缔结中也成了必备品。秦汉时
随着我国不断提高科技水平,地面气象观测工作飞速发展,各种高科技设备极大地提升了地面气象观测工作的水平。但是,地面气象观测工作绝大部分还是通过人工操作实现,因此,如果
新闻回顾$$    经第三方检测,酒鬼酒中共检测出3种塑化剂成分。行业专家分析研判认为,白酒输送管道使用塑料在行业内并不是偶然现象,在生产过程中接触了塑料管、塑料薄膜,
报纸
输油管道特殊管段的风险安全直接影响着整条输油管道的正常运行。开展输油管道穿越河流管段风险评价研究,提高考虑风险因素的全面性、客观性,对事故前预防具有重要意义。选用
临近年终,回顾一年来冷链物流业的发展,可以看到其又取得了长足进步,无论是法律法规、行政监管,还是在产业链需求和技术装备、信息化应用等各方面都出现了新的变化、新的进展。这
报纸
《政府工作报告》的翻译工作是一项综合事业,要求译者具备综合素质1。经查找与统计,2018年《政府工作报告》中高频词汇"推进"一词出现了67次。研究将以目的论为指导,以2018年
全国政协十三届二次会议闭幕,尽心履职的体育领域委员们,给记者留下了实打实的印象。$$他们专注而为、有备而来。察实情才能建真言。委员们亲身实践,以人民为中心,与时代同步伐。
报纸