结合对抗学习和智能算法求解组合优化问题——以旅行商问题为例

来源 :厦门大学 | 被引量 : 0次 | 上传用户:allviolet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
组合优化问题存在于日常生活的各个领域,外卖路线的规划、金融资产的配置、仓库选址等一系列的问题都可以建模为组合优化问题,这类问题影响着资源的配置,如何进行高效的决策影响着社会生产效率,即使小幅提高问题的求解质量,也能够通过规模效应较大的提高社会生产力。传统的求解该类问题的方法可以分为三类,分别为精确解法、近似算法和启发式算法。传统方法求解相同问题过程中,不同实例独立求解,而不能从过往求解过程中学习到经验,求解效率低下。如何更为高效的求解组合优化问题,在求解过程中学习经验成为研究组合优化问题的研究热点。随着计算机技术的发展,深度学习技术逐渐被应用在求解各类问题上,通过从海量的训练数据中学习从数据到结果的映射函数,训练好的网络能够快速的对问题进行求解。同时随着硬件性能的发展,计算机算力得到极大的提升,训练更大规模的神经网络成为可能。深度学习为求解组合优化问题提供了新的解决思路。目前,针对组合优化问题的深度学习研究方向多关注于对求解模型和训练方法的改良,更多的论文引入自然语言处理方向的新模型来加以改进求解效果。缺乏从实例的数据生成方向来关注模型的泛化能力和鲁棒性,本文针对增强组合优化问题求解网络的鲁棒性展开研究。对抗学习常被应用到视觉和自然语言处理领域来增强模型的正则化能力,本文基于对抗学习的思想,从主动生成对抗样本的角度来重新设计组合优化求解网络,并针对经典组合优化问题——旅行商问题切入研究。传统的对抗学习迭代方式往往没有对当前判别器网络训练效果进行评判,对抗训练过程中生成器和判别器的迭代往往会出现较大的震荡过程。本文依据使用强化学习训练判别器过程中主网络和评价网络的更新方式,提出一种自检测机制来训练对抗模型,与传统的对抗训练机制相比,该种方法使对抗训练能够快速收敛,且训练过程更加的稳定。最终得到能够在随机分布样本上和对抗样本上都取得较好结果的模型,通过实验仿真验证了自检测对抗训练方法的有效性。启发式算法可分为常规启发式算法和元启发式算法,常规启发式算法需要根据问题来对搜索过程进行设计,这种算法受到问题种类的限制。而元启发式算法则不易受到问题的制约。两类算法求解结果都受到初始解质量的影响。对抗训练增强了模型对对抗样本的防御能力,但同时对于原随机样本的求解效果有所削弱。通过对抗网络的初步求解,解的质量得到了大幅度的提升,可以为进一步的元启发式搜索提供较高质量的初始解。因此本文使用传统元启发式算法结合对抗网络,改善对抗学习而造成的网络对于随机样本的退化现象。
其他文献
我国坚持推动资本市场对外开放,并已经制定和实施了许多具体政策和措施,例如:QFII、RQFII、沪港通、深港通、债券通等政策。这些政策使我国资本市场吸引更多境外投资者的关注,为我国带来更多境外资金、成熟投资经验和管理经验,也促使我国资本市场更加成熟和具有活力,我国资本市场也在世界上占有越来越重要的地位。理论上,资本市场对外开放会通过知情交易和公司治理的途径使更多公司特质信息纳入该公司的股价中,使股
学位
多无人机协同目标搜索应用是无人机集群智能研究领域的热点课题之一,随着无人机在未来战场中的广泛应用,尤其是应用于作战环境中的侦察探测任务,使多无人机协同目标搜索应用的研究工作具用重要意义。本文针对不确定目标的多无人机协同区域搜索应用展开研究,通过建立目标和环境数学模型,设计面向不确定目标的多机协同区域搜索飞行轨迹规划算法,提高无人机的目标搜索效率。本文的主要研究工作内容如下:(1)通过对无人机的飞行
学位
针对航空航天、汽车和模具等行业部件结构和形状越来越复杂、材料越来越难加工的技术需求,增材制造+铣削加工(减材制造)的增减材复合式加工解决方案应运而生。将增材制造与减材制造两者有机地集成,使增减材复合制造技术不仅融合增材制造与减材制造两者的优势,同时相互弥补了各自的不足,对于各类复杂部件的加工具有更大的弹性,可实现复杂金属零部件的成形制造、修复和喷涂,同时激光同轴送粉增材方式也让多材料复合的功能梯度
学位
伪狂犬病毒(Pseudorabies virus,PRV)属于α疱疹病毒亚科,可引起猪的伪狂犬病(Pseudorabies,PR),具有传播范围广、死亡率高等特点,对养猪业造成巨大经济损失。PRV可交叉感染牛、羊、猫等各种动物,此外也出现少量人类感染的病例,被感染的患者主要表现为眼内炎、脑炎等症状。虽然PR的兽用减毒活疫苗已经广泛投入使用,但PRV具有神经潜伏特性,一旦发生基因突变会被重新激活感染
学位
随着新媒体技术的蓬勃发展,网络用户的数量急剧增加,众多网民在生活中获取信息和表达观点的途径也变得简单,随之产生的网络舆论造成的社会压力影响巨大,如何快速真实地掌握网络平台上的舆论情况成为了政府主要解决问题。而2019年新型冠状病毒(2019-nCoV)引发的肺炎疫情对中国人民日常生活的衣食住行等方方面面产生了不同程度的影响,同时也引发了国内舆论的广泛关注。为了达到对网络舆论进行情绪监测,便于科学有
学位
目前,金融市场急速发展。各种产品日益更新,为客户提供了多种借款模式,同时也不断更新着放款模式。有一些业务已经不基于线下审核开通,更多放在线上实现。丰富的借贷形式、多种放款数额的设置,也意味着客户的交易次数增多,即借款还款的频率明显升高。不同的业务满足着客户的多种需求,也对传统的授信方式,即人工凭经验审核,是一大挑战。显然,传统的方法不够高效也不够安全,无法满足目前的业务需求。国内在逐步沿用由国外兴
学位
单细胞转录组测序(single-cell RNA sequencing,scRNA-seq)能以高分辨率研究细胞异质性,使得从全转录组范围分析单细胞基因表达成为可能。然而,由于scRNA-seq较低的mRNA捕获率和测序深度,单细胞基因表达数据往往伴随着高变异性和高稀疏性,阻碍了细胞相似性的可靠定量和细胞类型的确定。而选择性多聚腺苷化(Alternative Polyadenylation,APA
学位
深港通政策的实施实现了深圳股票市场与香港股票市场之间的资本融通,是我国金融市场对外开放的重要一步,2016年12月5日深港通政策实施以来,我国资本市场迎来了飞速的发展,推进了金融市场外开放的进程。因此,评估已有互联互通政策对资本市场的影响,对指导下一步对外开放政策制定具有重要的意义。本文从深港通政策出发,以深港通标的股票流动性和波动性在政策实施前后的变化为切入点,来分析其政策效果。在研究国内外相关
学位
比例积分微分(PID)控制算法是实际生产中使用最为广泛的控制算法,据统计,90%以上的控制回路选用PID控制器。在工业上,一种常见的流程是通过调整PID控制器参数,以便与目标性能指标相匹配,而这些调整后的参数在整个操作过程中保持不变。然而,大多数工业过程都具有模型未知与过程模型随时间动态变化等问题。在这些情况下,必须重新调整PID参数以达到鲁棒的控制性能。但实时人工整定PID控制器参数对控制工程师
学位
信息过载已成为信息化时代面临的主要问题之一,推荐系统作为该问题的其中一种有效解决方法,得到了深入的研究和广泛的发展。本文就推荐系统中的推荐模型展开研究,基于对真实世界的推荐业务场景和数据的理解,提出了一种基于用户即时兴趣与固有兴趣的推荐模型,相较于现有推荐模型,更加符合真实世界中推荐场景的思维逻辑。本文的主要工作包含以下几点:一、提出了一种基于用户即时兴趣和固有兴趣的推荐模型Ⅲ-DNN(Ⅲ即Ins
学位