【摘 要】
:
大数据时代,数据量爆炸式增长,互联网中繁杂的知识却难以被很好利用。为了更好地组织管理知识,提升对互联网信息的理解能力,知识图谱应运而生,目前已被广泛应用于信息检索、问答推荐等领域。随着自动抽取知识的研究日渐成熟,越来越多的大规模知识图谱被建立,然而网络中各种来源的知识质量参差不齐,自动构建算法对相似实体及关系的区分能力有限,知识图谱不可避免地被引入噪声,清洗工作不可或缺。为了突破传统自动清洗方法受
论文部分内容阅读
大数据时代,数据量爆炸式增长,互联网中繁杂的知识却难以被很好利用。为了更好地组织管理知识,提升对互联网信息的理解能力,知识图谱应运而生,目前已被广泛应用于信息检索、问答推荐等领域。随着自动抽取知识的研究日渐成熟,越来越多的大规模知识图谱被建立,然而网络中各种来源的知识质量参差不齐,自动构建算法对相似实体及关系的区分能力有限,知识图谱不可避免地被引入噪声,清洗工作不可或缺。为了突破传统自动清洗方法受样本限制的瓶颈,得益于近年来众包技术的成熟,半自动化的清洗方法开始涌现。本文聚焦于融合机器及众包两者的优势,开展人机结合的知识图谱清洗研究,提出两种有效的清洗思路。本文的主要成果如下:首先,本文提出基于知识聚类的人在回路的错误检测模型(Knowledge Clustering based Human-in-the-loop Error Detection,KCHED)。考虑到三元组的错误检测工作等同于分类问题,为了弥补分类器训练样本缺失的不足,本文通过搭建人在回路的清洗框架,由众包辅助生成可靠的补充样本,用以循环提升分类器的效果。同时,该模型挖掘知识图谱内部丰富的类别及语义信息,量化三元组间的关联程度,通过设计有效的图模型完成三元组聚类,为众包任务的选择提供依据。其次,为了更进一步提升错误检测的质量,本文提出基于偏序及三元组置信度的错误检测模型(Partial Order and Triple Trustworthiness based Error Detection,POTTED)。针对KCHED模型训练高质量分类器仍受训练样本制约的问题,选择将三元组的错误检测工作重心转由众包完成。鉴于三元组在多个层面的置信度上均具有大小可比关系,以此为依据构建有效的偏序图模型,并设计合理的众包任务选择算法,在人工验证少量三元组的前提下,即可依据偏序关系推理更多三元组的正误。最后,以目前在知识图谱清洗研究中主流方法为基准,在公开数据集上分别对所提出的两个模型进行对比实验并分析结果。KCHED模型因采样时选择更为可靠的来源于待清洗知识图谱中的样本,同时量化三元组的关联度,并引入众包参与验证,取得了比现有方法更好的检测效果;POTTED模型进一步发挥机器与众包的优势,从多个角度评估三元组置信度的同时,以偏序图为基础加快众包检错工作,清洗质量得到进一步提升。
其他文献
随着互联网行业的发展以及智能手机等移动设备的普及,在线教育模式应运而生,各大在线教育平台也如雨后春笋般不断涌现,各教培集团更是率先启用在线教学模式,扩大线上用户。在线教育的普及过程中,人工智能技术在其中扮演了重要的角色,提供智能化批阅作业、在线答疑等应用。K12在线教育中,英文、数学等学科的智能辅助工具日趋成熟,而语文学科还需完善,中文作文的自动批改更是重中之重。算法模型的好坏往往与训练集的质量挂
随着互联网技术的飞速发展,大量的计算机软件已经倾向于部署在云环境下,面向服务的体系结构(Service-Oriented Architecture,SOA)、云计算和互联网服务等技术越来越受到消费者的青睐。然而随着云服务数量的日益增多,互联网上出现了大量功能相似的云服务,如何在这些功能相似的云服务中为用户选择合适的服务成为关键问题。服务质量(Quality of Service,Qo S)被广泛应
在北京提出要建设自行车和步行友好城市的背景下,相关部门提出了在回龙观与软件园、上地之间修建一条自行车专用路,在给予自行车独立路权的前提下用于分担早晚高峰大量的通勤出行客流,同时兼顾娱乐休闲的目的。本文以北京自行车专用路为研究对象,在分析其现状、区域交通状况、流量与出行特征的基础上,重点对其出行选择进行了研究。首先,本文阐述了自行车道路的设计类型及对应的隔离形式、适用区域等,并介绍了不同国家对自行车
地铁调度指挥工作单次轮班时间长、任务重,尤其在早晚客流高峰时段和非正常行车状态下需长时间保持注意力集中和高度警觉状态,这就不可避免地出现精神疲劳、心理紧张和情绪烦躁等负面问题,他们在作业期间面临着严重的脑力疲劳。脑力疲劳会影响其感知、理解、判断、决策和操作能力以及情感体验,进而降低个体警觉性、认知表现,诱发不良情绪,导致指挥判断和决策失误,严重时造成安全事故。现有疲劳干预办法大多需要付出生理或心理
随着网络规模不断扩张以及客运量持续攀升,基于客流动态变化的响应式运营组织措施制定已成为城市轨道交通系统网络化运营中的核心内容。如何准确预测网络内客流分布变化随之成为运营组织措施制定研究中一个亟待解决的问题。本文将网络内客流分布状态预测划分为短时OD客流量预测、乘客出行路径匹配和乘客出行列车匹配三个核心子问题,分别进行研究。针对短时OD客流量预测问题,以杭州地铁为研究对象,分别采用集计模式与非集计模
随着在光通信和信息处理技术应用中,传输网络容量的不断提升,传统的信息技术将会无法适应未来发展对于超高数据处理速度的需求。集成光学具有体积小、效率高、功耗低、性能稳定以及超高带宽等优点,符合未来信息技术发展的趋势。基于声表面波(SAW)的波导声光器件是集成光学中的关键器件,其具有消光比高、驱动功率低、设计灵活等特点,能很好地协调集成光学器件存在的高速与小尺寸的矛盾,可以基于几乎所有的光波导材料体系实
为培养新时代需要的人才,推动可持续发展的教育,混合式教学模式已日益受到高等教育的青睐。课题组针对新疆农业大学机电工程学院“电子技术”课程实践过程中出现的学生学习主动性不高、教学效果提升不明显、理论与实践结合不充分等问题,提出对该课程开展混合式教学实践改革。结合翻转课堂、线上+线下教学模式、课程思政等改革措施,充分利用现代化教学手段,挖掘学生学习潜能,提高课程质量。通过对该课程的混合式教学实践,提高
图匹配是图论中的一个基本问题。随着人工智能的发展,图匹配得到了越来越多的关注,被广泛应用在计算机视觉和模式识别等领域。该问题是指在两个图之间寻找节点与节点的对应关系,本质上是一个难于求得全局最优解的组合优化问题,因此目前大多数算法的提出均集中在牺牲一定的准确度,使模型在可承受的时间、空间范围内求取近似解。鉴于此,本文的重点研究内容是找到一个匹配准确度和运行效率更高的图匹配算法。本文将近几年国内外提
我国在过去的城市更新与加快发展进程中,城市空间发生了翻天覆地的变化,在发展中物质的更新并没有完全解决现实生活的问题,在城市化的进程中,儿童作为社会组成部分,他们的需求没有得到足够的重视,儿童的生活环境应该得到改善,本文以海淀区羊坊店片区作为样本街区,选取其中的样本街道,实地调研观察儿童的放学行为模式,观察他们所处的社交网络组成,对其分析,从孩子的视角提出可行的街道精细化设计方案,以此思路展开本文主
空铁联运能够充分结合铁路和航空运输的优点,有效拓展二者的通达范围,已成为近年来交通领域研究的重点问题之一。空铁联运环节较多,增加了产品“失效”的可能性,此时必须支出额外的成本进行补救。如何合理承担这部分成本,既有研究及实践均相对较少。因此,在不同的成本承担机制下,如何优化相应的补救措施,以及各类成本承担机制对补救措施的影响机制,就成为空铁联运研究亟待解决的重要问题。本文重点针对由于航班延误和列车晚