论文部分内容阅读
随着企业中信息系统的大量使用,异质的过程数据被源源不断地产生出来。根据调研,这些异质事件日志的数据质量存在着严重的问题,主要分为两类,一是存在着冗余事件,即拥有不同名称的事件实际上表示同样的商业活动;二是存在着缺失事件,即日志中记录的事件轨迹与对事件执行进行约束的过程模型之间存在不一致的情况。如果不解决这两类数据质量问题,以事件日志为基础的过程分析都无法得到高质量的结果。为了使信息系统运转在正常的生命周期之上,就有必要对冗余事件进行匹配,即找到有潜在对应关系的事件,并对缺失事件进行恢复,即找到满足过程模型约束,又与原事件轨迹差别最小的执行序列。但是,由于事件日志具有极强的异质性,无论是事件的匹配还是恢复都具有很多难点及挑战。本文研究了在可获取并利用的外部信息逐步增加的情况下,逐步提升异质过程数据的数据质量的方法。主要内容及创新点如下:?当没有任何可以利用的外部信息时,本文提出了一种异质事件相似度的计算方法。通过将日志转化为图结构并添加虚拟事件解决了事件名称透明以及错位匹配的难点。同时,基于迭代的相似度计算公式及其估算方法能够在准确度与计算效率之间进行权衡。而异质过程数据中可能存在的复杂事件同样能通过启发式的方法发现。?当事件日志中含有特殊的事件模式时,本文提出了一种利用事件模式相似度的事件匹配方法。该方法利用标准距离评估事件匹配的优劣。与现有工作不同的是,本方法考虑了复杂事件模式的相似度以增加标准距离的区分度。匹配算法使用A*搜索快速找到最优事件匹配,并且支持pay-as-you-go形式的增量式计算。?当事件日志含有对应的过程模型时,本文通过一种逆向回溯的方法找出事件轨迹中可能的缺失事件。该方法在处理并行结构上的恢复时回避了现有方法中对并行事件不同执行顺序的非必要枚举。该方法还利用索引,分支定界技术以及局部最优特性对无法产生最优解的选择分支进行剪枝,加快算法的效率。