不确定数据质量评估与溯源方法研究

来源 :武汉大学 | 被引量 : 1次 | 上传用户:ivwyniqtd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web以及各种数据采集设备的普及,数据规模呈指数级增长,但数据的质量却没有得到保障。在传统的数据管理中,通常假设数据是正确可信的,但现实生活中的数据却存在许多错误。由于数据质量问题引起的医疗事故、公司决策失误、监测数据失真等已造成严重后果。提高数据的质量可以降低事故发生率、减少经济损失,具有重大的社会价值和经济价值。数据质量的提升是一个持续的过程,因此通常使用概率数据库管理质量参差不齐的数据。概率数据库是对传统关系数据库的扩展,引入概率维来表示数据的可信度,通过可信度衡量数据质量。对数据进行质量评估,利用概率数据库管理带有可信度的数据并根据用户查询结果对低质量源头进行溯源是持续提高数据质量的前提,因此开展不确定数据质量评估与溯源方法的研究具有重要的社会和经济意义。本研究以低质关系数据为对象,研究如何提高非结构化数据(关系数据中文本类型属性值)质量评估的准确性,如何定义属性级溯源信息对概率数据库中的查询结果进行溯源和可信度计算,以及如何对带有属性级溯源信息的不确定数据进行建模存储。具体而言,本文研究主要包括以下四个部分:(1)质量评估中面向事实陈述句的描述粒度提升方法针对非结构化数据粗粒度描述导致歧义产生从而影响可信度计算的问题,本文提出一种寻找事实声明中缺失项来提高描述粒度的方法。该方法首先利用搜索引擎作为信息抽取器,进行缺失项候选的收集。由于缺失项存在关联关系,因此利用关联关系对候选进行分组,并从中选择可能性最高的组作为缺失项。在此过程中,通过聚类算法和知识库来辅助消除不正确的候选项。对于找出来的缺失项,基于搜索引擎从Web上抽取的相关数据,计算其出现在事实陈述句中各位置的概率来预测其在事实陈述语句中的插入位置。通过该方法,可以提高事实陈述的描述粒度,从而提高事实陈述可信度计算(即质量评估)的准确性。(2)支持属性级溯源的不确定数据存储模型针对现有不确定数据模型不能很好地表达带有属性级溯源信息的不确定数据的情况,本文基于对象代理模型提出一种新的数据模型,通过该模型建模不确定数据,把一个不确定元组分解为多个不确定对象存储,通过对象的组合得到不确定代理对象来表示不确定元组对应的可能元组。不确定代理对象和不确定对象之间通过双向指针进行关联,不确定代理对象继承的属性不存储其值,而是利用其与不确定对象之间的双向指针以及代理规则来实时计算得到。因此可以避免存储不确定元组对应的大量可能元组造成的冗余存储。此外,通过不确定对象和不确定代理对象之间的双向指针,可以使得对不确定对象的更新及时反映到不确定代理对象中,从而降低维护成本。基于该模型,本文定义了多种数据操作及其结果的属性级溯源表达式,从而通过该模型实现不确定数据的查询和结果溯源信息的生成。(3)基于属性级溯源表达式的结果概率计算方法针对元组级溯源信息无法准确定位包含多个不确定属性元组的情况,本文定义属性表达式,并通过属性表达式构造溯源表达式来实现属性级溯源。利用溯源信息计算结果元组概率时,为保证概率计算结果的正确,提出溯源表达式的转换算法。为加快结果元组概率计算,通过分析影响结果元组概率计算效率的因素,提出构建共享路径表的方法,并在构建过程中对原子析取式进行预计算。(4)存在依赖的不确定数据的结果概率计算方法针对现有结果元组概率未同时考虑多种数据关联和模式约束的情况,本文对不确定数据中可能中存在的数据关联或约束的种类进行讨论,并分析其在"Probabilistic or-set-? table"模型中具有的性质。为保证联合概率计算的正确,定义约束-关联图对各种数据关联和模式约束进行统一建模,并提出不同数据关联或约束之间存在的递推关系,使得根据已有的显式数据关联和约束可以推出数据之前潜在的关联关系。在计算若干对象的联合概率时,首先利用递推关系推断其可能存在的依赖,然后根据依赖种类采用不同的消元规则,在不改变联合概率值的情况下,消除部分对象,从而使得其求解联合概率成为可能。
其他文献
[目的]义齿性口炎多由白色念珠菌感染引起,是困扰活动义齿佩戴者的常见疾病。本研究通过生物量热技术监测姜黄素、氯已定、益康唑、咪康唑四种抗真菌药物对白色念珠菌的抑制效果,观察口腔义齿金属材料表面上白色念珠菌的附着和生长情况,并评价抗真菌药物对义齿金属材料上白色念珠菌生长代谢的影响。研究共分三部分:第一部分用量热技术监测四种抗真菌药物对白色念珠菌生长代谢的影响,获得相关热动力学参数,说明四种抗真菌药物
随着能源危机和环境问题的逐渐加重,以及未来以便携化、微小型化为发展目标的智能电子设备的供电需求。人类需要一种能够实现持续供电、不受体积限制且清洁无污染的新能源技术。纳米发电机(Nanogenerator,NG)是一种全新的微型能量转换装置,它可以不断收集环境中各种离散的机械能,并将这些能量转化为电能驱动电子设备,实现低频机械触发的高效能量转换。更重要的是,纳米发电机的成本低、原料易得、在工作过程中
循环肿瘤细胞(CTCs)目前被认为是恶性肿瘤复发转移的重要途径之一。因此,检测捕获病人CTCs具有重要的临床价值和实际应用意义。但是,目前由于循环肿瘤细胞在外周血中微乎其微,这对于CTCs的临床检测和应用是一个严峻的考验。肝癌(hepatoce llular cac ino ma, HCC)作为世界范围内常见的恶性肿瘤,死亡率居世界第三位,而复发和转移是导致死亡的最常见原因。肝癌细胞可以在肿瘤发生
阿尔茨海默病(AD)是一种老年化的神经退行性疾病,其典型的病理特征之一是β-淀粉样蛋白(Aβ)在大脑中沉积形成老年斑(SP)。早期的流行病学研究发现,雌激素替代疗法(ERT)虽然可以提高绝经后女性的认知能力,但是会增加病人罹患乳腺癌和子宫内膜癌的风险。因此,其临床应用受到限制。选择性雌激素受体调节剂(SERMs)是一类具有雌激素激动或拮抗活性的化合物。由于其组织选择性,近年来SERMs已经成为一类
骨关节炎(osteoarthritis, OA)是一种以关节软骨退行性变为主要病理特征的慢性关节疾病,常引起关节疼痛甚至残疾,严重影响患者生活质量,给社会和家庭带来巨大经济负担。然而,迄今有关OA的病因及发病机制仍不清楚。传统观点认为,OA为老年退行性疾病。其发病与年龄、性别、创伤、机械摩擦、职业、体重及运动量等因素有关。近来研究显示,OA与代谢综合征(metabolic syndrome, MS
拉帕醌、剑麻素A、荧光素等活性分子均为氧杂环化合物,具有抗菌、抗结核、抑制心律失常等活性.高效构建该骨架是有机合成的热点.双环化反应是近年来合成氧杂环化合物常用的方法之一.文章综述了双环化反应在构建氧杂环骨架中的应用,对深入探究该类衍生物的高效合成奠定了基础.
第一部分温度敏感性水凝胶植入对大鼠心肌缺血再灌注损伤的保护作用背景:急性心肌梗死(acute myocardial infarction,AMI)是冠心病(coronary artery heart disease,CHD)患者死亡的主要原因,严重危害人类健康。早期、充分、持续地开通梗死相关动脉,使缺血心肌及时获得充分灌注是挽救濒临坏死的心肌、缩小梗死范围、防止心室重构、改善临床预后、降低死亡率的
银川市积极探索学校思政教育一体化建设,突出党建引领,在学校思政工作的顶层设计、体系架构、实践路径中提出了大中小幼思想政治教育一体化建设,通过全员育人、全程育人、全方位育人,将思想政治工作贯穿教育教学整个过程,构建“三全育人”新格局。
背景:肺动静脉畸形(PAVMs)是一种以肺部动脉和肺部静脉直接连通为主要特征的血管性疾病,其可通过CT或者增强CT明确诊断。当这种病理改变累及到整个肺叶的小动脉和小静脉时候,则称之为弥漫性肺动静脉畸形(dPAVMs)。遗传性毛细血管扩张(HHT)是目前肺动静脉畸形最常见原因。研究表明约80%-90%的PAVMs是由HHT引起。到目前为止,通过采用候选基因法和外显子组测序等技术,共鉴定出了4个与肺动
从1762年到现在,商业保险的发展已有200多年历史。在我国,保险行业属于朝阳产业。虽然我国的保险业起步较晚,开发程度较低,规模较小,同时国民保险意识落后,保险行业专业人才缺乏,保险品种缺乏多样性,但是,这也是中国保险行业迎来的挑战和机遇,并不影响我国保险行业光明的发展前景。