论文部分内容阅读
数据质量和隐私保护问题已经引起了学术界广泛的关注,并已成为当前学术界的热点研究领域.数据质量并不仅仅是指数据错误,通常定义为数据的一致性(consistency)、正确性(correctness)、完整性(completeness)和最小性(minimality)这四个指标在信息系统中得到的满足程度,也有文献把“适合使用”作为衡量数据质量的初步标准.基于隐私保护的数据挖掘是指在尽量不影响挖掘结果的情况下,让一些敏感信息得到尽可能多的保密.
当前数据质量的研究大多集中在相似重复记录清理、不完整数据清理和错误数据清理等方面.为了更适合不同数据挖掘任务的完成,本文拓宽了数据质量的定义内涵,将对数据集基于不同目标进行变换都称为提高数据质量的操作.本文主要使用了多种聚类策略来提高不同挖掘目标的数据质量.
本文拓展了传统的数据一致性(consistency)定义,借鉴连续函数的思想,提出了一个分类样本空间的一致性度量概念来衡量数据集的分类一致性,进一步将其推广到数值型连续数据上.作为具体验证,将提出的连续分类一致性定义用到了SOM方法中,得到基于SOM连续分类一致性定义的分类方法.最后从VC维的角度分析了提出算法的优点.
为了使核方法适用于大规模数据集的求解,本文提出了基于聚类加权的快速核方法.快速聚类核方法使用聚类方法让原始数据集规模缩小,从而解决了核计算中大规模矩阵的计算效率(甚至不可运行)的问题,使矩阵特征值求解问题的规模从O(n3)下降到O(τ3),τ<
其他文献
对经济系统的研究离不开模型,而一个系统往往可以用不同的模型去描述,其中之一就是状态空间模型。20世纪80年代以来,状态空间模型已成为研究经济系统的一种有力的建模工具。
本文讨论了几类的差分方程周期解的存在性,包括两类泛函差分方程正周期解的存在性,一类中立型差分方程的周期解的存在性和一阶差分方程的正周期解的存在性,获得了一系列新结果,推
软变结构控制通常被认为是一种具有滑动模态并且具有理想鲁棒性的控制,这种鲁棒性是人们应用滑模变结构控制研究系统性质的主要原因。除了滑模变结构控制,还有一类没有滑动模态
当企业的所有权与经营权分离时,委托代理问题就随之出现了。由于信息不对称,委托人和代理人都从自己的利益出发,利用自己的信息优势,机会主义行事。在委托代理问题的分析中,为了避免代理人滥用控制权侵犯委托人的利益,就有必要在现代企业制度中建立有效的代理人行为的激励和监督机制。本文主要考虑了委托代理关系中激励机制和监督机制方面的三个问题:激励合同的特征;委托人没有授权第三方监督人监督代理人时,对称信息和不对
随着经济的不断发展,中国已经加入了WTO,我国也建立了市场经济体制。知识经济已经逐渐发展起来了,各个企业在进行财务会计管理的时候,也需要根据世界的发展进行不断的调整,为
自20世纪80年代有限单群的分类问题解决后,群和t-设计分类问题引起了世界群论界各学者的广泛关注和致力研究,2-(v,k,1)设计的分类就是其中一个很热门的话题。本文为解决这一分类问
随着汽车数量的迅速增长和道路交通事故的频繁发生,如何减少交通事故、降低交通事故造成的损失成为人们关注的重点。行人作为道路交通的主要参与者,同时也是交通事故的直接受