面向知识图谱的时间问题回答语料库构建研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:itolbaxk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向知识图谱的复杂问题回答技术的研究是人工智能领域和信息检索领域的重要研究热点。时间问题是带有时间表达约束的复杂问题,是复杂问题的一个重要子类。时间问题回答技术的研究需要特定的方法和特定的语料库,而现有时间问答语料库的问题数量有限,且Freebase知识图谱停止了更新。时间问答语料库的构建既可以为时间表达识别、时间问题分类等研究提供数据资源,也可以为时间问题回答模型的训练提供数据资源,并且也能提高人工标注问答数据的效率。该任务对智能回答技术的研究具有十分重要的意义,因此本文旨在研究面向知识图谱的时间问题回答语料库构建技术。本文提出了两种时间问题语料构建方法。一种是面向现有数据集的时间问题语料构建方法,该方法主要是从现有时间问题数据集中人工总结时间问题识别模式,采用模式匹配的方法从现有问答数据集中抽取时间问题答案对,并与朴素贝叶斯、K最近邻、支持向量机、逻辑回归四种传统机器学习方法进行实验对比和性能评价,针对现有问答数据集的问题答案来自不同知识图谱的问题,将问题的答案进行了标准化,即统一链接到维基数据。问题生成是目前研究的热点之一,而目前没有针对时间问题自动生成方法的研究。因此本文提出了另一种面向维基数据和维基百科的时间问题语料构建方法,该方法主要是以现有时间问题数据集作为种子,利用问题答案对从知识图谱中获取<主、谓、宾>三元组,以此扩展更多的三元组;并采用远程监督、谓词识别和时间表达识别的方法,从维基百科中抽取包含三元组实体、关系和时间表达的陈述句;针对从维基百科获取的句子中存在非三元组事实关系的表达且句子结构复杂的问题,提出了陈述句简化算法,把复杂句简化和分解为简单句;最后利用基于句法依存关系和规则的方法生成时间问题答案对,并与最新的问题生成方法进行实验对比和性能评价。综上,面向现有数据集的时间问题语料构建方法构建了5828个时间问题答案对,基于模式匹配的时间问题识别方法的准确率为89.04%,比传统机器学习方法性能更好。面向维基数据和维基百科的时间问题语料构建方法,以现有时间问题语料库中的36个谓词作为种子,自动生成了8066个时间问题答案对,实验结果表明生成的时间问题在句法、语义和流利度三个方面较其他方法效果更佳。最后为了大家能更好地了解本文提出的方法,并使用本文构建的语料库,本文设计并实现了时间问题语料库构建展示系统。
其他文献
近些年来,人脸识别技术发展迅速并被广泛的应用于各行各业。然而,来自非法用户的人脸欺骗攻击却给人脸识别技术的应用带来了很大的安全隐患。为了解决这一问题,人脸活体检测技术应运而生。本文首先总结了现阶段人脸活体检测领域的研究成果,并针对现有检测方法在跨数据集检测时检测准确率低等问题,研究了基于检测场景中的上下文信息以及人脸视频中的时域与纹理特征的活体检测方法。本文所做工作如下:1.研究了一种基于上下文信
近年来,越来越多的消费者在购物平台上留下评论信息。用户评论往往包含顾客在消费过程中对服务、质量、性能、价格等多个方面的情感倾向。一些商家希望从顾客的评论中挖掘商品各属性的口碑,以辅助经营。同时,越来越多的消费者正尝试从其他顾客的评论中获取详细的商品评价,以辅助消费决策。如何自动化地从用户评论中提取多个指定属性的情感倾向,以便提供详细的用户情感分析报告是亟待解决的问题。细粒度情感分析对该问题开展了研
住院医师规范化培训是培养优秀青年医学人才最重要的基础环节,是新时代深化医药卫生体制改革落实的重大举措。提高规范化培训的质量更是重中之重的任务,对医师个人成长、医院整体发展、国家全面富强、人民幸福安康具有十分深远的影响,任重而道远。本研究是面向健康中国、健康江苏战略需求的应用型研究,在人本原理、期望理论、全面质量管理等公共管理理论框架下研究出一套普遍适用本地区乃至全国同级别、同类型住培基地医院的病案
农业生产性服务是农业现代化发展的趋势和要求,农机作业服务作为农业生产性服务的重要内容,能直观的反映农业现代化发展的状态,现阶段江西省面临着农机作业发展不平衡,农户选择农机作业服务程度不深等问题。本文运用多元回归分析模型对农户选择农机作业服务程度的影响因素进行研究,其研究成果期望可以帮助政府相关部门把握农机作业服务的发展趋势、并对目前省内存在的问题提出相关对策建议。本文研究将对完善农机作业服务程度的
区域品牌对产业集群发展生命周期中的创新升级和地区经济的可持续健康发展起着不可或缺的作用。现如今,创建和培育区域品牌也是国家层面制定长期发展战略的重要抓手,例如“一带一路”先进制造业基地建设、精准扶贫、乡村振兴战略等。区域品牌协同创建制度获得成功的前提是需要各集群参与者充分接受此新制度并共同协商出资建设,如果坚持使用原来的独自发展政策,只会造成新制度的实施受阻并进入“失效”的状态。因此,本文基于制度
中欧班列自首列开行以来,经过九年发展,各地班列公司的运行线路、发车时间、货源腹地渐趋成熟和稳定。为寻求新的贸易增长点,打破西部内陆地区国际国内贸易的增长困境,成都市政府在2016年启动实施“蓉欧+”战略,提出把青白江铁路中心站提升为成都国际铁路港,相继开通成都至深圳、厦门等城市的“蓉欧+”货运班列。然而随着成都市的定位以及其腹地经济的进一步发展,使得在现有集疏运系统满足运输需求方面存在一定压力之外
随着物联网和信息技术的飞速发展,制造业的智能化程度也在逐渐提升,朝着“智能制造”的方向迈进。物联网、数据采集与实时处理分析以及智能决策是智能制造的核心技术,通过对生产现场设备、环境、产品、以及物料加工时产生的数据进行实时采集和分析处理,生产决策人员能实时了解产品的生产制造过程,并针对设备异常、物流异常、质量问题等情况进行相应的生产调度,从而提高车间生产效率,提升产品质量。生产数据的实时采集与处理已
哈佛大学Stanley Milgram教授曾提出六度分割理论,表示任何两个陌生人之间通过六个人即可互相建立联系,基于此,社会化互联网服务社交网络开始建立,通过社交网络建立人脉的时间和成本大幅度的降低。在中国,微信的成功催化了中国移动互联网时代的发展,每一个个体都有着自己或大或小的人际流量池,2012年,社交电商借助微信中的人际传播从这片流量沃土中诞生。目前,拼多多是我国社交电商中的典型代表,此文从
二级轻气炮在超高速发射领域中应用十分广泛,是超高速碰撞下材料动态响应研究的重要设备,而对于材料微观动态响应及其机理的研究需要有原位实时高时空分辨率的手段,第三代同步辐射X射线光源具有高时空分辨诊断能力,因此将二级轻气炮与同步辐射X射线结合起来是非常有必要的。本文以氦气为驱动气体研制了一门小型化二级轻气炮,应用于先进光子源实验线站。本文通过理论计算和有限元仿真模拟,考虑科研项目需求,对所研制的二级轻
软件定义网络(Software Defined Networking,SDN)的出现为网络的革新与发展增添了新的动力,带来了广阔的发展与应用前景。针对近年来互联网规模不断扩大而导致的互联网功耗快速增长的情况,节能已成为网络研究中的重要问题,SDN网络灵活的集中控制特征为改善网络性能和减少能耗带来了绝佳的机会。但是,传统网络向SDN网络转型的过程中需要实现对现有网络架构与设备的巨大变更,由于升级预算