复杂问题的中文问答系统的设计与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:livos
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的问答系统涵盖了模板方式、图查询方式、表示学习方式、深度学习方式,缺乏对复杂中文问句的语义理解。中文复杂问句有问句类型的多样性、问句实体的多态性、问句语义的模糊性三方面的复杂性,导致了问答系统在中文复杂问句方面表现不如人意。此外,中文复杂语句问答系统缺乏成熟的部署方案,人工标注、答案处理、系统的划分结构、需求变更导致的再次开发影响系统的成本、推理能力、鲁棒性、可迭代能力。为了解决上述问题,本文提出了复杂中文问答系统的设计与实现,基于分类模型处理中文问句类型的多样性,基于实体识别和实体消歧处理问句实体的多态性,基于知识图谱处理问句语义的模糊性。在解决问句复杂性的基础上构建问答系统,论文设计和实现了一个复杂问题中文问答系统及其部署方案。本文的主要研究点与贡献如下:(1)论文设计了深度学习模型解决复杂中文问题三方面的复杂性。论文提出了基于双向长短期记忆网络的问句分类模型,确定中文复杂问句的问句类型。论文提出了基于命名实体识别技术,抽取中文复杂问句的实体,利用命名字典生成候选实体,构建基于孪生网络模型,消除实体的二义性,生成中文问句的唯一实体。论文构建中文复杂问句的知识图谱,基于中文复杂问句类型和实体信息,生成中文问句的关系路径,生成中文问句的答案。(2)论文实现了一个复杂问题中文问答系统的原型系统,CCS-QA(Question Answering System for Chinese Complicated Statements)。在数据层,论文实现了一个实体识别及实体消歧的标注策略,来扩展和更新CCS-QA原型系统的数据;在模型功能层,论文实现了中文问句理解模块,查询知识图谱,映射中文问句的关系路径,生成答案;在接口层,论文实现了基于RESTful API接口,为第三方用户提供复杂问题中文问答服务;在应用层,论文实现了中文复杂问题的问答系统的部署。(3)本文通过原型系统和实验验证,评估整体系统性能。中文复杂问句分类方面,复杂问题中文问答系统到达了97.41%的F1值;在中文问句实体识别方面,我的中文问答系统达到了98.33%的准确率;在实体消歧方面,复杂问题中文问答系统到达了95.57%的F1值。本文所提出的原型系统,在整体系统性能方面,在数据集合NLPCC-2016,达到了83.65%的准确率。实验结果表明,本文的复杂问题中文问答系统具备可行性和有效性。
其他文献
随着互联网技术的日益普及和医学文献数量的快速增长,医学文献数据量呈现爆炸式增长,但大量医学文献数据大多以结构化方式存储,有着不易提取,人工标注成本高昂等特点。在医学文献中,文献摘要记录着重要信息,如何根据大量的医学文献摘要抽取重要的循证医学数据,并分析从而开发合成新的药物来治疗疾病变得愈发重要。医学文献命名实体识别,作为自然语言处理的基础和重要的任务,可以从非结构化的医学文献中抽取规范的实体,可以
随着当今社会信息化和智能化的迅速发展,利用计算机实现以人为中心的各类分析成为了可能。在人机交互、视频监控、医疗防护等应用场景中,准确的人体解析、姿态估计以及进一步的行为识别都是至关重要的。本文使用深度学习的方法,通过对现有的以人为中心的各类分析方法进行研究,寻找其中的不足之处,提出了相应的改进方法。本文的主要研究内容如下:(1)提出了一种用于人体解析的类别感知网络。针对现有人体解析模型的提取特征方
命名实体识别(NER,Named Entity Recognition)是自然语言处理的热点方向之一,目的是识别文本中的命名实体,并将其归纳到不同的实体类型中。命名实体识别是自然语言处理的基础任务,其结果能有效应用于信息抽取、问答系统、文本分类等各项后续任务。命名实体识别的准确度将直接影响自然语言处理中后续工作的表现。随着深度学习的发展,基于长短期记忆网络(LSTM,Long Short-term
作为基础工程的建筑工程建设,在社会经济发展水平中占有至关重要的地位。但是在传统的工程管理模式下,成本控制不是各参与方最关心的问题,而施工方在竣工结算时又想将工程经济效益最大化。因为从设计阶段开始就没有一套规范的项目成本控制流程,施工过程中工程变更屡见不鲜,工程索赔更是常有发生,工程窝工、大规模的赶工期也经常发生,这些现状在传统工程管理模式下会造成工程资源的大量浪费,包括人力、物力、财力。而BIM5
当前随着区块链技术的迅猛发展,区块链机器共识的可靠性日益受到全球各个国家和企业的广泛重视和应用。在中国,区块链技术已经被中央政治局提升到“核心技术自主创新的重要突破口”,以及被国家部委加入“新基建信息技术基础设施”的国家战略高度。很明显区块链技术的重要性越发突出,未来可能会被广泛应用于各行各业。国内很多科技企业都积极关注和发展区块链技术,致力于能在区块链领域有所创新,致力于更深度的区块链落地应用,
信息技术的发展带动了数字医疗的高速发展。数字医疗作为新颖的、现代化程度高的信息化医疗方式,改变了医疗数据的存储与共享方式,极大地促进了医疗发展。在医疗系统实施信息化建设的过程中,如果直接把重要的敏感医疗数据放在云服务器上,当服务器遇到不法分子攻击时,一些重要的数据极有可能被泄露。进而产生隐私信息被非法售卖等一系列的连锁问题。区块链技术具有分布式共享全局账本,公开透明,去中心社区化等优势,能够很好的
随着我国高速铁路的迅速发展,高速列车长期处于高速、重载与高密度的运行条件下,使得钢轨表面的磨损日益严重,可能会引发严重的安全事故,因此钢轨廓形的检测分析及其磨耗测量逐渐成为了铁路工务部门非常重要的检测任务之一。基于结构光的测量技术是如今视觉测量领域的研究重点和热点,已经广泛地应用于工业测量的各个领域,因此基于结构光的钢轨磨耗测量方法已经成为铁路基础设施安全检测中的热点课题之一。本文着眼于如何在动态
文本情感分析是自然语言处理领域的一个重要任务,它是一种以提炼文本情感内容为目的的文本分类。根据分析粒度的不同,文本情感分析可以分为对整篇文章的情感分析、对某段话的情感分析和对某段话中各个方面的情感分析,其中,对某段话中各个方面进行情感分析是一种细粒度的情感分析。目前,针对整篇文章或整个句子进行情感分析的研究技术已经比较成熟,并取得了较好的效果。但是,对文本进行整体情感分析会掩盖文本中不同方面的不同
随着互联网的普及和移动应用的快速发展,人们越来越习惯于在网络上获取信息。传统的医疗问诊需要人们去医院挂号进行诊断,随着网络技术的发展,越来越多的医院推出了在线问诊功能。人们渐渐习惯于去搜索引擎或者专门的问答网站,去搜索或提问相关症状,并从专业医生的回答中获得参考。但是专业医生资源有限,而绝大多数医疗问题集中在类如感冒发烧等常见疾病上,这些常见医疗问题已有的回答非常具有参考意义。如何通过分析已有的医
句法分析是自然语言处理中的一项基础核心技术,其目标是根据给定的语法理论,自动识别分析句子中各种成分之间的关系,最终得到句法树,在机器翻译等自然语言处理任务中有着广泛的应用。当前主流的神经网络句法分析模型依赖大规模标注数据,但是由于汉语不像英语有丰富的词性变化等表层信息来表示句法结构,导致汉语树库规模较小,人工标注成本高,短期内难以扩大。因此,如何利用现有的标注树库自动进行数据增强成为研究的焦点。在