高维数据聚类算法及其在健康管理的应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:qwertyuiopgfdsah
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术与计算机科学的高速发展,数据的收集、传输与存储变得更加便捷,数据平台的建设在这种技术条件下得以迅速发展。随之产生的数据新形式层出不穷,数据维度也由之前的几维发展到成千上万维,数据维度的增加给数据分析与处理带来了巨大的挑战。聚类作为数据分析中的一种重要技术,旨在将数据集根据本身特性划分类别,对每一类的个体进行精准化处理;该技术在健康管理中有着重要的应用,借助该技术对健康相关的数据进行聚类,对每个类别的个体进行更加个性化与精准化的健康管理。然而,与健康相关的因素众多,传统的聚类算法如K-Means等在处理这类高维数据时效率低下甚至完全失效。本文研究高维数据的聚类算法及应用,1)提出了基于SCAD函数正则化的K-Means聚类模型与算法(Reg.K-Means算法),算法可以有效的剔除冗余维度信息,保留真正有价值信息,且使聚类结构更准确更稳定;2)利用数据对聚类算法的计算效率和效果进行了验证,并在此基础上利用真实的健康管理数据进行了实证分析。具体的,我们选取了中老年人健康普查数据作为原始数据源,应用算法进行疾病预测分类。我们分别使用KMeans算法、Sparse K-Means算法和Reg.K-Means算法进行聚类结果的对比和分析,充分显示了算法的效率,并说明如何利用聚类结果进行精准化健康管理。
其他文献
<正> 画史记载:我国秦、汉以前,一般绘画作者,大多为画工(虽有例外,极少)。约自魏、晋、南北朝起,士大夫文人从事画艺者,始渐增多(顾恺之、王微、宗炳诸名家,均兼为文人),浸
高新技术企业是技术创新的主体、高新技术产业发展的载体,是转变经济发展方式、优化产业结构的主力军,对推进资源枯竭型城市转型和可持续发展具有重大意义。黄石市积极推动科
现代电子工业和信息产业的高速发展所引起的电磁辐射危害不容忽视,探索高效的电磁屏蔽材料已成为目前迫切需要解决的问题。高的磁导率(μ)和饱和磁化强度(Ms)是高效能电磁屏蔽材
<正>联动不应止于两个市场的简单联合,在新房和二手房两个"桥墩"之间架起"桥梁"才是决定性因素房地产业正在进入新一轮"紧缩"阶段,而且就目前来看,这个阶段将会持续数年。怎
<正>拥有强大的客户资源才能保持物流地产赢利。以客户为引导的全球扩张策略,值得国内地产商借鉴普洛斯是全球最成功的工业地产商,也是全球物流地产开发的标杆企业。普洛斯从
“六法”的提出,为我国造型艺术领域的创作和评论开创了一个精密而具有普遍艺术规律的理论体系。本文作者在学习前人研究“六法”的基础上,根据雕塑创作实践,从雕塑造型艺术的角
本文根据2003年统计资料,选取了反映县域经济竞争力的15项指标,运用因子分析法对红河州13个县市的县域经济发展水平进行综合评价,用聚类分析法将红河州各县经济发展水平分为
本文主要介绍五色疗法治疗急性踝关节扭伤的方案、操作方法、原理.
基于汽车行驶模型和制动模型,建立汽车自适应巡航系统的间距算法常微分方程组,且给出通用数值解计算方法。基于此间距算法,设计汽车自适应巡航控制的控制策略,将前后两车间距
本文总结了本溪市环境保护"十二五"规划实施过程中存在的突出问题,并对"十三五"环境保护形势进行了展望。