基于机器学习的本体匹配调谐研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:hahahuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本体(Ontology)作为对领域内共同认可知识的一种形式化的定义与描述,在实现领域知识共享的同时也带来了本体异构问题,本体匹配(Ontology Matching)则是解决本体异构问题的有效途径。在一个本体匹配的系统中往往存在众多可调节的匹配参数与匹配策略,若能针对不同匹配任务选择最优的参数和策略,则可获得更佳的匹配结果,这个过程便是本体匹配调谐(Ontology Matcher Tuning)。现有的匹配调谐工作主要由经验丰富的专家来完成,普通用户难以下手。因此,自动化的本体匹配调谐对降低匹配系统使用门槛和发挥匹配系统的性能具有重要的意义。本文分别从参数与策略两部分对此展开了研究工作,主要内容如下:(1)提出了一种基于机器学习的参数调谐方法。将参数调谐问题看作多输出回归的问题,首先根据匹配任务设计特征工程,并搜集粒子群优化调谐法在历史匹配任务下的近似最优参数组来构建训练集训练模型。此方法对未知的匹配任务有较好的鲁棒性,能在脱离参考匹配的前提下,实现参数的自动调谐,提高了匹配系统的易用性。与默认参数相比,该调谐方法得到的参数能有效提升匹配性能。在OAEI2016 benchmark数据集上的实验结果表明,多个本体匹配系统经调谐后匹配性能平均提升4.7%的F1值。(2)提出了两种基于机器学习的策略调谐方法。从基于有监督学习的角度来说,将策略调谐问题看作是多分类问题,并对各历史匹配任务中的匹配策略候选集进行深度优先搜索,搜索出各任务的最优匹配策略来构建训练集,最终训练好的模型能根据新任务的特征,自动计算出该任务最优的匹配策略。从基于强化学习的角度来说,将策略调谐过程分解为强化学习适用的“状态–行为”图,随后借助Q-Learning强化学习算法求解给定任务的最优匹配策略。相比系统内置的默认匹配策略,两种策略调谐法均能有效地提升匹配性能。在OAEI2016 benchmark数据集上的实验结果表明,系统经调谐后匹配性能平均提升24%的F1值。(3)提出了一种加速构建训练集的方法。针对调谐过程中所需训练集构建时间过长的问题,利用图采样技术,在大本体上进行采样操作,对采样后的子本体任务进行最优解的搜索,并将搜索结果直接作为原始任务的解,大大减少搜索的时间。实验表明,该方法可以在保证取得较好调谐效果的同时有效地缩短训练集的构建时间,使得构建时间相对采样前减少了近一个数量级。(4)实现了一个能自动调谐匹配参数与策略的本体匹配系统Lily-TM。该系统不仅集成了目前主流的本体匹配算法,而且内置了基于机器学习的参数与策略调谐算法。它能在实现一般本体匹配功能的同时有效地调谐匹配参数与策略。
其他文献
研究者对电子地图导航系统进行了大量研究。关于不同空间认知风格个体偏好的信息表征方式,以往文献并未给出明确结果。此外,电子地图导航的视野大小对离线表征的影响,及视野大小与导航模式对个体空间知识获取的交互影响,尚无明确结论。在前人研究基础上,采用计算机动态模拟电子地图导航界面,通过两个实验探讨:个体差异与电子导航模式对空间知识习得水平和离线表征的影响。研究结果如下:在实验一中,首先将被试按照熟悉度与空
棉花(Gossypium hirsutum)是世界上最重要的经济作物之一,棉纤维作为一种天然纤维为纺织业提供了原材料。棉花纤维细胞是由种皮的最外层细胞分化而来的不分支的单细胞毛状突
随着原油日益重质、劣质、高硫化现状的出现,和对硫质量分数要求越来越严格的环保法规,要求进一步发展渣油深加工技术,迫切需求成本低而且能够改善渣油品质的脱硫技术。由于传统的加氢脱硫技术存在设备投资大、操作费用高和操作条件苛刻等问题,而氧化脱除渣油中的硫化物操作简单、条件温和,可以将加氢脱硫条件下因空间位阻而很难去除的稠环噻吩类硫化物(如DBT、4,6-DMDBT)氧化成亚砜和砜类硫化物,再结合热分解工
本论文主要研究了Lewis酸MgI2催化的1,4-二酮与伯胺的Paal-Knorr反应以及愈创木烷型倍半萜天然产物表莪术醇的不对称全合成。本论文内容主要分为以下两部分:第一部分首先对吡
背景:无菌性松动(aseptic loosening,AL)是关节假体置换发生松动的主要原因之一,如果假体与骨界面存在一定的微动,假体周围骨的长入就会受到影响。界膜主要含有巨噬细胞、滑
燃料电池(Fuel Cells,FC)是一种将化学能直接转化为电能的能量转化装置,近年来,因其符合清洁、安全、可再生的绿色能源发展方向,从而成为能源材料领域的研究热点。在FC中,阴
背景:随着癌症免疫治疗的发展,肿瘤微环境(tumor microenvironment,TME)逐渐成为肿瘤免疫的研究热点,免疫治疗的阳性反应通常依赖于肿瘤细胞与TME内免疫调节的相互作用。TME
随着我国高速铁路、公路建设的不断发展,所属隧道工程已经向长大、深埋方向发展,由于它们所处的地质条件复杂等原因易于出现高地应力情况。而高地应力的出现对隧道工程的影响
电热膜是一种新兴的供暖保温材料,它能够迅速将电能转换为热能,并将热能以辐射的形式传递出去,能够达到快速升温及节能减排的效果。但在实际使用当中,由于长期在较高温度下使
非线性映射的保持问题一直是许多学者的研究热点.在本文中我们定义了第一类和第二类混合Lie三重积的概念,并在因子von Neumann代数上,借用皮尔斯矩阵分块的方法,研究了保持这