稀疏二进制数据下改进的层次聚类算法

来源 :浙江大学 | 被引量 : 0次 | 上传用户:longlong2ddd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全民互联网时代,企业获取数据的方式方法有了翻天覆地的改变,获取的成本更低,数据量更大.如何对这些数据进行分析,挖掘出有价值的隐含的信息,研究者们提出了许多有效的方法.这些方法大致分为:分类(Classification),估计(Estimation),预测(Prediction),关联分析(AssociationRule),聚类分析(Clustering),其中聚类分析是一个非常热门的领域.新方法下获取的数据有自己显著的特点:其一,数据很稀疏.单看一个样本数据并不稀疏但将样本映射到一个有巨大特征属性的总体中时,稀疏性不可避免:第二,分类数据越来越广泛,尤其是特殊的分类数据0和1.0,1数据也叫二进制数据,例如文本挖掘数据,基因信息中的特征数据以及定性变量中的”是”和”否”特征,越来越多的研究者将目光从数值型数据转移到了分类数据的聚类分析,二进制数据也受到了更多的关注.  基于上述数据的特征(稀疏性,二进制数据),本文在分析了分类数据的主流算法-Huang提出的k-modes算法和传统的层次聚类算法的基础上,提出了一种改进的层次聚类算法.对于二进制分类数据,传统算法认为1-1匹配与0-0匹配对样本整体的相似度贡献是一样的,这些算法在对称的均匀数据中有不错的表现,一旦数据变得稀疏,这些算法的劣势就体现出来.本文提出的改进算法不仅考虑了两个样本间各特征值的匹配,并根据不同的匹配定义了新的相似度函数,并提出了一种基于tf-idf的变量选择法:最后将本算法与k-modes和传统的层次聚类算法进行了比较,聚类有效性指标有不同程度提高.通过thitf理论选择出重要的变量,显著的降低了计算复杂度,希望这些研究能给稀疏二进制分类数据的聚类分析工作提供新的研究视角.
其他文献
产业结构调整主要通过市场机制来进行,要求市场机制规范化、完善化,以更好地发挥市场机制的调节作用,产业结构的调整必须依靠企业和个人的投资和经济活动及其调整来实现,要求
  本文以经济学和统计学理论为指导,以商业经济为主体,采用统计实证和规范相结合的方法,对我国商业景气监测预警进行分析,并对我国商业经济运行的指标体系进行研究。  本文对
论文包括以下部分:导言部分论述了选题的背景及意义,.并对一些概念进行了界定;第一章作为全文的基础理论部分,阐述了西方融资结构理论的发展和现状;第二章对美英证券市场主导
在金融和保险等数据的分布拟合中.t分布的应用有效地解决了正态分布所不能描述的数据重尾特征的问题,但现实数据并非总是对称的,因此对t分布的偏斜推广成为研究的热点.t分布的
该文主要研究地方税收征管改革的问题.所要解决的问题是怎样在分税制的财政体制下,针对宜昌市地方税收管理的特点,构造适合宜昌市地方税收征管改革的模式,并就目前中国地方税
制度与经济发展之间存在着清晰的双向关系:一方面,制度会影响经济发展的水平和进程;另一方面,经济发展确实而且经常导致制度变迁.制度变迁的路径规律性很强,对于发展中国家而
2012年12月31日,上证综指上涨1.61%,为该月的上涨行情画上了一个圆满的句号。这不但创下40个月以来的最大单月涨幅,也避免了年K线“三连阴”的局面出现。  截至2012年12月31日16时,美洲市场中,委内瑞拉IBC暴涨297.65%,道琼工业上涨5.90%,纳斯达克上涨13.63%,标普500上涨11.52%;欧非中东市场中,STOXX欧洲50上涨9.18%,富时100上涨5.90%,法
该文主要论述风险投资项目决策的方法,通过对几险投资项目的传统决策方法如净现值和内益率理论的阐述,研究净现值和内部收益率的比较效果,进而推出市场状态的不确定性因素影
随着中国加入WTO,中国保险市场对外开放将不断扩大,保险业竞争将更加激烈,对中国保险公司的竞争力提出更新的和更大的挑战.该文选取国有保险公司竞争战略为研究对象,运用企业
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥