数据流上的聚类与分类算法

来源 :清华大学 | 被引量 : 0次 | 上传用户:lzj509649444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代社会中,越来越多的数据以数据流的形式出现。数据流与传统静态数据的区别在于其规模的无限增长以及其中蕴含概念的不断演化,这些特点使得许多根据静态数据模型设计的数据挖掘算法不再适用,因此针对数据流的数据挖掘算法研究成为一个重要的研究方向。本文对演化数据流的聚类与分类问题进行了研究,完成了如下工作:1.提出了一种处理混合属性数据流的聚类算法。该算法利用泊松过程对数据流的产生进行建模,并将数据流中样本的连续属性与离散属性统一考虑,定义了混合属性条件下样本之间的距离。在上述定义的基础上实现了一种包含在线与离线两个阶段的数据流聚类算法。2.提出了基于产生式模型的支持向量机输出概率化算法。该算法利用正态分布模型对支持向量机原始输出值的类条件概率密度进行建模,实现了批量式分类问题中测试集上的分类器输出调整,以解决训练集与测试集中类先验概率存在差异的问题。实验表明,该算法比已有经典算法更适合于分类器输出调整。3.针对存在类先验演化现象的数据流,提出了分类器输出调整算法。该算法利用时间序列分析中的指数平滑算法以及AR模型进行数据流上类先验概率的预测,并利用预测结果进行分类器的输出调整。实验表明,该算法可以很好的处理类先验演化这种特殊的概念漂移问题。此外,针对周期性的类先验演化提出了改进的类先验概率预测算法,并成功地用于智能视频交通监控中的车辆分类。4.提出了一种处理一般概念漂移问题的线性分类器增量更新算法。针对逻辑斯蒂回归模型,在自训练的框架下用二阶泰勒展开来近似数据流的对数条件似然函数,实现了近似对数条件似然函数的增量更新,并以此为基础进行分类器参数求解。与采用梯度下降的自训练方法相比,本文提出的算法在处理复杂的概念漂移问题时更为鲁棒。
其他文献
近年来,我国物流产业发展迅速,各地物流园区项目也越来越多,但是,就目前国内的物流园区建设现状而言,整体建设水平并不是很高,还存在诸多有待改进的问题。本文笔者针对物流园
文章主要对虚拟校园制作过程中校园写实类绿化景观模型进行建模。利用3ds Max对低面数模型进行细节的优化和模型的调整,对植被和公园装饰进行实例化;利用灯光工具设置灯光的
目的 研究血液标本存放温度及放置时间对降钙素原(PCT)免疫检测项目检测结果的影响.方法 选取10例住院患者为研究对象,抽取研究对象的空腹静脉血,分别保存在室温、2-8℃、-20
The academic community is currently confronting some challenges in terms of analyzing and evaluating the progress of a student’s academic performance. In the r
A steady-state Poisson-Nernst-Planck model with n ion species is studied under the assumption that <em>n</em> - 1 positively charged ion species have the same v
Base optimum thickness is determined for a front illuminated bifacial silicon solar cell n<sup>+</sup>-p<span style="font-size:10px;">-</span>p<sup>+</sup> unde
Two-electron atoms have been investigated near threshold of double escape within the framework of hyperspherical coordinates. A particularly useful set of hyper
期刊
我国基础教育快速发展的同时,中小学学校发展的不均衡性显现出来,一批薄弱学校的生存和发展受到严重制约。尽管国家有关部门和地方政府纷纷出台了积极推进基础教育均衡发展的
<正>目的:探讨多层螺旋CT脑灌注成像不同扫描模式对灌注参数及患者辐射剂量的影响。方法:选择在我院行头颅灌注成像患者中检查结果
会议