Web大数据环境下的不一致跨源数据发现

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:fang514
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性.
其他文献
目的:观察姜黄素对肝纤维化过程中活性氧(ROS)、丙二醛(MDA)的生成及转化生长因子-β1(TGF-β1)、血小板源性生长因子(PDGF)表达的影响,探讨姜黄素预防肝纤维化的作用机制。方法:采用四
2015年新修改的《立法法》新增了对行政规章的限制:没有上位法“依据”,不得设定权利义务关系。此处的“依据”应作严格解释,即有明确的法条授权。理由可见于《宪法》和《立法
用VHDL设计了一种32-bit数字相关器,测试和实际应用表明其性能稳定可靠.
介绍了PCI总线结构和接口开发背景,并对专用接口芯片S5933芯片的工作原理,功能特点进行了分析,自行开发了一个具有实用价值的接口电路,该接口电路使用了可编程逻辑,FIFO存储等技术
整个南海新生代的演变可概括为一系列微板块在太平洋板块与印度洋板块运动影响下发生拉薄、裂解、滑移、旋转、会聚和碰撞的过程。特别是经过55、33、25、16、6、2Ma关键时期
通过对研究区35个站位全新世中期以来泥质体沉积厚度和形成年代的统计分析,认为泥质体主体主要形成于7.0cal.kaBP前后,伴随着黄海最高海平面出现,此后海平面波动幅度极小,沉
通过对CSH1岩心131个沉积物样品中的稀土元素进行分析,恢复了冲绳海槽北部88ka以来碎屑物质来源及古环境的演化历史。结果显示,88ka以来稀土元素含量发生了剧烈的波动,范围为
摩托罗拉系统公司于2012年12月25日宣布,其所提供的800MHzTETRA数字集群通信系统被西安地铁1号线采用,使得西安地铁1、2号线在摩托罗拉提供的系统上实现了无缝互联互通,从而构建
汇丰最担心中国监管体系是否能与国际最高水准接轨,这句话背后的潜台词是:中国的政策风险深不可测。    如果为了让A股市场成为国际市场,而吸引外资企业上市,很有可能像印尼雅加达市场一样,欲速则不达;如果为了中国金融与资本市场的规范,为了人民币国际化,而允许外资企业在境内上市,则是妙招。  回归上海,当然不只是为了怀旧。这家决心成为所有市场的当地银行的金融机构,不仅在伦敦、香港上市,汇丰控股还在巴黎、
CCS技术对于控制和减少以二氧化碳为主的温室气体的排放具有重要意义。然而,CCS技术的应用也存在着巨大的风险和困难。在《联合国气候变化框架公约》和《京都议定书》中,对于