基于函数依赖的网络表格实体列发现技术

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:zhangyutinglzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,网络上涌现出越来越多的表格数据。这些结构化的网络表格覆盖面广且信息量大,因而备受人们关注。与传统的关系表相比,网络表格具有不规范性、不确定性和异构性,这些特性使得机器很难自动识别其语义。实体列是网络表格中最具有语义代表性的属性列,对网络表格实体列的准确发现,将极大地促进机器对表格主题的标注及语义的理解。已有的实体列发现方法主要有两类,即基于知识库的发现方法和基于规则的发现方法,它们的局限性在于:基于知识库的发现方法的准确率完全取决于知识库中实体的覆盖广度,遍历知识库的时间开销很大,且无法适用于多实体列表格;基于规则的实体列探测技术通常对网络表格质量要求较高,对于质量情况参差不齐的网络表格,实体列探测的准确率无法保证;此外,现有的实体列探测技术伸缩性差,难以扩展到规模较大的网络表格数据集中。针对研究现状,本文提出基于函数依赖的网络表格实体列发现方法,主要研究工作如下:(1)针对网络表格的特征提出近似主函数依赖关系。近似主函数依赖关系以主属性为决定集,能更精准地表达网络表格中主属性与其他属性间的依赖关系,有利于网络表格实体列探测和主题发现。(2)提出近似主函数依赖关系的评估和量化方法aPFDMiner。定义置信度(Conf)和增益(InfoGain)两个指标来评估和量化近似主函数依赖关系;设计剪枝策略有效地选择候选依赖关系并缩小搜索空间,以提高探测的准确率和时间效率,以便应用到规模较大的表格数据集中。实验结果显示,与传统方法相比,我们的算法aPFDMiner发现近似主函数依赖关系的时间效率和准确率更高,在规模较大的数据集上扩展性更好。(3)提出基于函数依赖的网络表格实体列探测框架ECMiner。根据aPFDMiner挖掘得到的近似主函数依赖集创建表模式依赖图,通过设计实体列评分理论模型,将实体列探测问题转化为在表模式依赖图中检测最强结点的问题,我们的方法既适用于单实体列表格也适用于多实体列表格。多个数据集上的实验结果表明:与现有方法相比,ECMiner不仅在准确率和时间效率上有了大幅度的提升,而且能适用于缺乏表头或者表头语义不清晰的网络表格以及多实体列表格的实体列探测问题。
其他文献
随着2016年1月“全面二孩”政策的正式施行,二孩家庭日益增多,当代有相当一部分二孩家庭产生了各个层面的家庭问题。二孩家庭问题是当代人口政策不断调整下新出现的家庭问题,考虑到二孩家庭是未来家庭的主流类型之一,二孩家庭一旦陷入困境将影响社会稳定和社会经济的发展,如何有效解决二孩家庭问题,恢复家庭基本功能是社会工作领域的重要内容。本课题立足调查对二孩家庭通常面临的困境作梳理,分析困境产生的成因和表现,
学位
基于惯性传感器的肢体活动识别技术是人机交互和普适计算领域一个新兴的研究方向,并在智能人机交互、医疗保健、教育和运动分析等领域进行了广泛地研究。然而基于惯性传感器的肢体活动识别技术应用在建筑领域还处在一个缓慢发展以及探索可行性的过程,早期研究未能考虑到惯性传感器位置对施工活动识别的影响,且由于施工活动的复杂性使得基于惯性传感器的施工活动识别还有待研究。因此本文重点研究了基于多类型惯性传感器协同下施工
导电聚合物由于具有易加工性、良好的环境稳定性、优异的导电性和良好的阻燃性因此成为了最广泛应用的材料之一。但是性能单一的材料已日渐不能满足社会发展的需求,能够在掺杂后具有多种优异性能的导电聚合物复合材料便应运而生。聚吡咯、聚苯胺因其同时兼有良好的导电性和阻燃性成为导电聚合物材料研究中的热门材料。本论文分别制备了聚吡咯/还原氧化石墨烯复合电极材料和聚苯胺/蒙脱土/聚苯乙烯纳米阻燃复合材料并对其进行了结
社会的发展为机器人提供了广阔的应用空间,爬壁机器人作为机器人的一个重要分支,其发展也越来越受到社会和学术界的关注。磁吸附爬壁机器人因为吸附力大,不需要外设能源设备
随着电气电子设备的高集成化与高功率化,电子设备的热流密度越来越高,提高设备的热管理能力成为进一步推动电子行业发展的关键。导热纳米流体以及导热复合材料在核能冷却、高电压输送、航空航天以及国防工业等领域发挥着至关重要的作用。本文以氮化硼纳米片(BNNS)为导热增强粒子,以去离子水(Diw)为基液制备了 Diw/BNNS纳米流体;以聚二甲基硅氧烷(PDMS)为基体制备了 BNNS/PDMS复合材料。分别
目的:探讨泽兰乙醇提取物及其有效成分对大鼠心肌缺血再灌注损伤的保护作用,并阐明其作用机制与PI3K/Akt/mTOR信号通路之间的关系。方法:健康雄性SD大鼠96只(体重200±20g),喂养7日,随机分为8组,正常组(Control)、模型组(I/R)、泽兰乙醇提取物高剂量组(ELTH)、泽兰乙醇提取物低剂量组(ELTL)、白桦脂酸高剂量组(BAH)、白桦脂酸低剂量组(BAL)、迷迭香酸高剂量组
在高校教学管理工作中,学校教学质量优劣重要评估指标之一是学生课程成绩,存在多种因素影响学生课程成绩。利用数据挖掘工具对学生的学习课程成绩进行预测分析,进而利用预测分析结果及时指正学生出现的不良学习行为,同时检查老师的教学效果,这具有非常重要的研究意义。为了完成学生课程成绩预测工作,本文首先对于传统随机森林算法的研究现状进行分析,并结合模拟退火算法提出在特征选择、参数优化以及权重设定方向进行优化的改
氢能源作为一种新型的绿色能源,受到学术界和产业界的广泛关注。在氢能源技术中,氢能的产生、存储和利用是重要的三个方面,相关材料和技术的发展对推动氢能的利用至关重要。
目前,腰痛渐渐成为影响人们生活的首要疾病,四季均可发病,其发病率较高,约有80%的成年人有过腰痛的经历。司机、护士、体力劳动者因工作具有重复性、反复性,使得人体腰部长期
航空公司在运行过程中,作为直接关系到飞机的飞行安全和维修成本的飞机维修管理信息系统,受到越来越广泛的重视和研究。随着计算机、数字通信等技术的迅猛发展和航空维修业市