考虑初始聚类结构保持的深度嵌入聚类算法及其应用研究

来源 :山东财经大学 | 被引量 : 0次 | 上传用户：successfully_

【摘要】

：

【作者】

：

王禄

【出处】

：

山东财经大学

【发表日期】

：

2020年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据聚类能够从无标签的数据中获取数据的内在联系和规律,是数据分析的重要基础。k均值聚类算法,因其简单高效而被广泛应用于数据聚类问题。但传统的k均值聚类算法,聚类结果易受初始中心点选取的影响,同时,在处理不平衡数据集及线性不可分数据集的聚类问题时,传统k均值聚类算法的表现差强人意。本文首先在全局k均值算法及多原型聚类算法的基础上,提出了一种改进全局k均值的多原型聚类算法。其次,传统聚类算法在处理高维数据时往往面临维数灾的问题,而深度学习算法能够有效地捕捉高维数据的低维特征,因此,将聚类算法与深度学习相结合,本文提出了一种考虑初始聚类结构保持的深度嵌入聚类算法。最后,将所提出的深度嵌入聚类算法应用于金融产品的个性化推荐问题,实现金融产品的精准营销。本文的主要工作和创新点总结如下:（1）提出了一种改进全局k均值的多原型聚类算法（IGKM-MPC）。GKM算法虽然克服了k均值算法中聚类结果易受初始中心点选取的影响这一缺陷,但同时算法的全局寻优策略也使得该算法具有更高的时间复杂度。因此,本文提出了一种改进的全局k均值聚类算法IGKM（Improved Global K-means）,在保证聚类性能的同时具有更低的时间复杂度。此外,为解决线性不可分或不平衡数据集的聚类问题,将所提出的IGKM算法与多原型聚类算法结合,提出了一种基于IGKM的多原型聚类算法（Improved Global K-means based Multi-prototype Clustering,IGKM-MPC）,通过仿真实验,验证了IGKM算法和IGKM-MPC算法的有效性。（2）提出了一种考虑初始聚类结构保持的深度嵌入聚类算法。深度嵌入聚类（Deep Embedding Clustering,DEC）算法基于自编码器结构,同时进行特征学习和聚类,解决了传统聚类算法处理高维数据时面临维数灾的问题;但是该算法仅考虑聚类损失,训练时会破坏数据结构。因此,本文提出了考虑初始聚类结构保持的深度嵌入聚类算法。该算法引入初始聚类结构保持损失函数,综合考虑了聚类损失、重构损失和聚类结构保持损失。此外,为使该算法获得更优的初始聚类中心,将所提出的IGKM算法作为初始化方法。通过实验仿真,验证了提出算法的有效性和优越性。（3）将所提出的深度聚类算法用于银行金融产品的个性化推荐。首先,介绍了银行金融产品营销的问题背景;基于银行数据维度高、稀疏性强的特点,本文提出了考虑初始聚类结构的深度嵌入聚类与协同过滤相结合个性化推荐算法,该算法能够有效处理高维用户或商品数据。然后,通过在数值数据上的实验验证了算法的有效性。最后,将该算法用于真实的银行金融产品个性化推荐中。与基于k均值聚类算法的推荐结果相比,基于深度聚类的推荐算法取得了更优的推荐结果。本文提出的算法有效克服了传统聚类算法存在的结果不稳定、处理高维或线性不可分数据能力差等不足,仿真实验验证了所提算法的有效性和优越性。同时,所提算法在金融产品个性化推荐中的应用进一步体现了本文方法的应用价值,未来的研究中,将探索本文提出方法在客户画像、风险评估等领域的应用。

其他文献

汉语叙事语篇阅读中青年人和老年人的预期推理修正研究

阅读理解是一种认知需求活动,涉及理解监控和推理。在预期推理修正过程中,人们通过监控来修正初始推理,产生与上下文一致的刚刚修正的推理。由于工作记忆容量和抑制控制能力会影响老年人在推理加工水平的表现,而在汉语叙事语篇阅读领域,对老年人的推理修正能力知之甚少,因此本研究的主要目的是:（1）探究青年人和老年人在预期推理修正上的年龄相关差异;（2）研究工作记忆容量和抑制控制能力对青年人和老年人预期推理修正加

学位

基于行业板块动态相关性的中国股市系统性金融风险研究

当前,我国资本市场逐渐向多层次发展,各行各业之间的合作业务逐渐增多,整个市场的自由化程度越来越高,混合型业务层出不穷,在这样的趋势下,如果市场体系中有某个机构或行业出现危机将迅速波及合作机构,危及到股票市场,更严重的情况下实体经济也会受到拖累,最终对中国经济造成破坏。面对复杂的经济结构和股票市场,研究如何运用科学手段有效防控系统性金融风险具有重要意义。本文以我国28个申万一级行业指数2006年1月

学位

优秀学生译员双向交替传译过程中的非流利现象研究 ——基于第九次全国口译大赛的语料研究

非流利指的是导致语流中断却并未增加命题内容的言语现象。在日常生活中,非流利现象非常常见。非流利与流利事实上是概念相似的两个术语,中国的学者在研究口译流利现象时倾向于使用“流利”,而外国学者则多用“非流利”。作为口译研究中的一个热门话题,国外的非流利研究体系和架构都比较健全,在认知、语言、文化等各种角度下都对非流利现象展开了研究。相较之下,国内学者在这方面的研究并不深入,尤其是在不同语言方向的对比研

学位

翻译汉语词汇创新性特征历时研究 ——以《物种起源》汉译本为例

在翻译不对等情况下,创新性是译者提出解决方案的关键。在词汇层面,译者通过创造新词或新用法,从而有机会丰富目标语言的词汇和表达方式。已有研究基于语料库语言学方法,观察了翻译语言中的词汇创造性特征（Kenny 2014;Vintar 2016）,发现了一些创新词汇,并辅以验证翻译共性或译者创新性。本文进一步将新词的时间因素考虑在内,探讨创新词汇及其历时变化。研究主要讨论了两类创新词汇:新词和旧词新用词

学位

Q阶序对模糊语言环境下的三支多属性决策方法及应用研究

在多属性决策问题中,传统的二支决策方法不仅对信息的完整性要求较高,而且只能给出接受或者拒绝两个决策结果。在二支决策的基础上,三支决策允许决策者做出第三种决策,即不承诺决策,在信息不完备的情境下可以有效降低决策损失。随着决策环境的日益复杂,精确属性评价值愈加难以获取,模糊性成为多属性决策问题中的常见现象。Q阶序对模糊语言集结合语言术语集和Q阶序对模糊集在描述模糊信息方面的优势,能够给决策者更加自由的

学位

基于广义序对二元语义的多属性群决策方法及应用研究

由于现实决策环境日益复杂,同时人类的思维认知存在模糊性与不确定性,许多决策者更倾向于使用模糊数或语言词表达决策信息。广义序对模糊数由直觉模糊数发展而来,允许决策者赋予隶属度和非隶属度0到1之间的任意实数值,具有更广阔的模糊信息表达范围;二元语义模型由一个语言词和一个实数组成,可以表示语言术语在信息集成过程中的任意结果,从而能够有效避免决策过程中的信息损失。广义序对二元语义综合了二元语义与广义序对模

学位

山东省各市全要素生产率的测算及比较研究

山东省经济处于由高速增长转向高质量发展的阶段,各市经济发展差异明显。全要素生产率是评判一个地区或国家经济增长的重要指标,其测算结果能够帮助我们认清山东省17市的经济发展现状,指明未来发展方向。如何去测算全要素生产率?不同测算方法得到的结果又有怎样的差别?全要素生产率又受到哪些影响因素的影响?围绕上述问题,本文采用多种测算方法对山东省17市的全要素生产率进行详细测算,并对测算结果进行对比分析,采用动

学位

基于迁移学习的水下图像增强与目标检测研究

水下目标检测旨在定位和识别水下场景中的目标,在海洋探测和监测、自主水下航行器等水下应用中具有重要意义。然而在复杂的水下环境中获取的图像通常存在严重的退化,影响水下目标检测等高层次视觉任务的执行。水下图像增强算法可以改善图像退化,提高水下图像质量,但是水下缺少真值图像,基于学习的方法在合成数据上训练的模型泛化性能有限,并且图像增强与目标检测任务的优化目标不同,仅考虑算法的增强效果时,增强后的图像不一

学位

浅析术语翻译策略 ——以《荧屏女同》的汉译为例

这是一篇翻译实践报告,基于笔者对源语言文本《荧屏女同》的翻译。源语言文本是一篇由凯特·麦克尼古拉斯·史密斯撰写的博士毕业论文,属于社会学领域,主要研究近十年来女同性恋群体在电视荧屏上的发展趋势,具有一定的学术价值和现实意义。学术论文的翻译向译者提出了新的要求,不仅要求译者准确把握原文特点,完整传达作者思想,还要兼顾译文的可读性,使译文既清晰易懂,又符合学术论文的客观性和规范性特质。本报告重点研究汉

学位

基于FCM和LSTM的两阶段时序数据预测模型

时间序列数据指的是把针对系统观测得到的数值,按照时间的先后顺序排列而成的一种序列数据。时间序列数据十分广泛的存在于人们的日常生活当中,比如电力系统的地区用电量、气象系统中的污染物排放情况、金融领域中的股指期货变化等等。针对这类时序数据进行分析和研究,通过建立预测模型来对接下来一段时间之内,数据的变化趋势、变化量进行预测。准确可靠的预测结果对于系统的未来决策和发展具有非常重要的指导意义,因此时间序列

学位

考虑初始聚类结构保持的深度嵌入聚类算法及其应用研究

与本文相关的学术论文