论文部分内容阅读
本体(Ontology)作为对领域内共同认可知识的一种形式化的定义与描述,在实现领域知识共享的同时也带来了本体异构问题,本体匹配(Ontology Matching)则是解决本体异构问题的有效途径。在一个本体匹配的系统中往往存在众多可调节的匹配参数与匹配策略,若能针对不同匹配任务选择最优的参数和策略,则可获得更佳的匹配结果,这个过程便是本体匹配调谐(Ontology Matcher Tuning)。现有的匹配调谐工作主要由经验丰富的专家来完成,普通用户难以下手。因此,自动化的本体匹配调谐对降低匹配系统使用门槛和发挥匹配系统的性能具有重要的意义。本文分别从参数与策略两部分对此展开了研究工作,主要内容如下:(1)提出了一种基于机器学习的参数调谐方法。将参数调谐问题看作多输出回归的问题,首先根据匹配任务设计特征工程,并搜集粒子群优化调谐法在历史匹配任务下的近似最优参数组来构建训练集训练模型。此方法对未知的匹配任务有较好的鲁棒性,能在脱离参考匹配的前提下,实现参数的自动调谐,提高了匹配系统的易用性。与默认参数相比,该调谐方法得到的参数能有效提升匹配性能。在OAEI2016 benchmark数据集上的实验结果表明,多个本体匹配系统经调谐后匹配性能平均提升4.7%的F1值。(2)提出了两种基于机器学习的策略调谐方法。从基于有监督学习的角度来说,将策略调谐问题看作是多分类问题,并对各历史匹配任务中的匹配策略候选集进行深度优先搜索,搜索出各任务的最优匹配策略来构建训练集,最终训练好的模型能根据新任务的特征,自动计算出该任务最优的匹配策略。从基于强化学习的角度来说,将策略调谐过程分解为强化学习适用的“状态–行为”图,随后借助Q-Learning强化学习算法求解给定任务的最优匹配策略。相比系统内置的默认匹配策略,两种策略调谐法均能有效地提升匹配性能。在OAEI2016 benchmark数据集上的实验结果表明,系统经调谐后匹配性能平均提升24%的F1值。(3)提出了一种加速构建训练集的方法。针对调谐过程中所需训练集构建时间过长的问题,利用图采样技术,在大本体上进行采样操作,对采样后的子本体任务进行最优解的搜索,并将搜索结果直接作为原始任务的解,大大减少搜索的时间。实验表明,该方法可以在保证取得较好调谐效果的同时有效地缩短训练集的构建时间,使得构建时间相对采样前减少了近一个数量级。(4)实现了一个能自动调谐匹配参数与策略的本体匹配系统Lily-TM。该系统不仅集成了目前主流的本体匹配算法,而且内置了基于机器学习的参数与策略调谐算法。它能在实现一般本体匹配功能的同时有效地调谐匹配参数与策略。