异质过程数据集成与修复

来源 :清华大学 | 被引量 : 0次 | 上传用户:huimin0609
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业中信息系统的大量使用,异质的过程数据被源源不断地产生出来。根据调研,这些异质事件日志的数据质量存在着严重的问题,主要分为两类,一是存在着冗余事件,即拥有不同名称的事件实际上表示同样的商业活动;二是存在着缺失事件,即日志中记录的事件轨迹与对事件执行进行约束的过程模型之间存在不一致的情况。如果不解决这两类数据质量问题,以事件日志为基础的过程分析都无法得到高质量的结果。为了使信息系统运转在正常的生命周期之上,就有必要对冗余事件进行匹配,即找到有潜在对应关系的事件,并对缺失事件进行恢复,即找到满足过程模型约束,又与原事件轨迹差别最小的执行序列。但是,由于事件日志具有极强的异质性,无论是事件的匹配还是恢复都具有很多难点及挑战。本文研究了在可获取并利用的外部信息逐步增加的情况下,逐步提升异质过程数据的数据质量的方法。主要内容及创新点如下:?当没有任何可以利用的外部信息时,本文提出了一种异质事件相似度的计算方法。通过将日志转化为图结构并添加虚拟事件解决了事件名称透明以及错位匹配的难点。同时,基于迭代的相似度计算公式及其估算方法能够在准确度与计算效率之间进行权衡。而异质过程数据中可能存在的复杂事件同样能通过启发式的方法发现。?当事件日志中含有特殊的事件模式时,本文提出了一种利用事件模式相似度的事件匹配方法。该方法利用标准距离评估事件匹配的优劣。与现有工作不同的是,本方法考虑了复杂事件模式的相似度以增加标准距离的区分度。匹配算法使用A*搜索快速找到最优事件匹配,并且支持pay-as-you-go形式的增量式计算。?当事件日志含有对应的过程模型时,本文通过一种逆向回溯的方法找出事件轨迹中可能的缺失事件。该方法在处理并行结构上的恢复时回避了现有方法中对并行事件不同执行顺序的非必要枚举。该方法还利用索引,分支定界技术以及局部最优特性对无法产生最优解的选择分支进行剪枝,加快算法的效率。
其他文献
图书馆阅读文化是高校广大读者长期形成并共享的一种阅读理念、阅读价值取向以及阅读行为习惯。通过对高校图书馆阅读文化的认识,分析了当前大学生的阅读现状及其产生的原因,
在中国现有高等医学院校教育现状的基础上,欲实现中医与西医的整合首先需要明确存在的主要问题。石学敏院士从课程、教师与学生3个主要方面进行了详细的阐述,强调课程建设的
短时间序列广泛存在于电子商务、宏观经济、科学研究、公共管理等领域。短时间序列数据的基本特征是单条序列的观测数量较少,难以直接应用已有的时间序列挖掘算法。本文分析
本课题旨在提高医疗护理过程中人性化服务质量,如静脉滴注速度的监控、报警、调节,以减少护理人员及其家属工作量,给患者及家属一种放松感、安全感,与此同时,可以避免医疗事
目的进一步认识青年人颈椎病的临床特征,探讨其发病的危险因素和防治方法。方法对就诊的颈椎病患者的病史、生活习惯详细调查,完善体格检查和影像学检查,并进行随访,年龄在15-30
随着多媒体技术的快速发展和互联网的迅速普及,可供人们使用的多媒体素材规模急速增长,不同类型的多媒体数据融合的应用也逐渐增多。现实中,大量跨媒体融合应用需要对乐曲时
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
中西医结合是中国医疗卫生事业的根本方针,也是中医药学与西医药学两大医学体系发展的必然趋势。陈凯先院士表示,从建立中西医统一的新医学的长远目标来看,当前中西医结合还
采用改进的QuEChERS方法提取和净化猪肉样品,建立了同时测定磺胺类、磺胺类增效剂、β-受体激动剂、四环素类、喹诺酮类、金刚烷胺和性激素共7类35种兽药残留的液相色谱-串联