基于短语的问题理解及答案生成方法

来源 :河北师范大学 | 被引量 : 0次 | 上传用户:casterisme
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能问答系统经历了从规则依赖到语义理解的变革,问答质量不断改进.随着Web2.0时代的到来,社区问答系统逐步成为人们获取知识的主要方式.在社区问答系统中,用户成为分享和管理知识的主体.研究人员也开始关注用户在问答系统中起到的重要作用.社区问答系统的最大挑战是保证问题回复的及时性.因此,研究者试图在提问者提出问题时自动找到相关答案.其主要分为三个部分:理解自然语言问题的语义;从已有答案中找到最相关答案;根据已有知识生成新的自然语言答案.本论文利用短语表示问题及其相似性关系,以期解决社区问答中的答案选择及答案生成问题.本论文将句法分析引入到短语挖掘过程中,有效地改进了短语挖掘效果.创新性地将词嵌入方法扩展到短语嵌入方法,利用神经网络学习短语的向量化表示,并通过向量距离表示语义相似关系.在短语嵌入的基础上,本论文提出两种社区问答方法:基于异质信息网的社区答案选择方法和基于知识图谱的社区答案生成方法.本论文主要研究内容如下:(1)基于句法分析的Quality Phrase挖掘方法.多数短语挖掘方法基于N-gram获取候选短语,它扩大了候选短语的搜索空间,并引入了无意义的候选短语.针对此问题,本论文将句法解析技术用于短语挖掘,利用解析树表示句子结构;然后通过遍历解析树获取具有独立语义的词序列作为候选短语,有效提升候选短语质量.本论文提出短语的重要性评价指标,并联合已有指标对候选短语进行综合评价.最后,本论文通过句法结构消歧进一步改善了短语质量.实验结果表明,基于句法分析的Quality Phrase挖掘方法在短语挖掘精度方面领先对比方法约6%,并提升约7%的候选短语转换率.(2)基于神经网络的分布式短语嵌入方法.语义相似性一直是自然语言理解的重要研究课题.本论文创新性地提出三种Phrase2Vec方法,将短语嵌入到向量空间中,并利用向量距离表示短语的语义相似性,有效地提升了文本语义表示的准确性.同时还将Phrase2Vec应用于文本分类和文本聚类任务.实验表明,Phrase2Vec在词相似性任务和短语相似性任务中分别领先对比方法约1%和5%.(3)基于短语融合异质信息网的社区答案选择方法.社区答案选择面临的最大挑战是从复杂实体关系中找到匹配答案.针对此问题,本论文利用异质信息网络表示社区问答中的复杂实体关系,并融合短语信息网络表示问题语义;然后,将社区答案选择任务转化为异质信息网的最短路径问题.本论文提出类型约束的Top-k相似实体查找方法以解决答案选择任务.实验证明该方法在最优秀的答案选择方法上提升约3%的答案匹配精度,降低约1%的平均误差.(4)基于知识图谱的社区答案生成方法.多数社区答案生成算法忽略用户背景的重要性,从而导致生成的答案与问题不匹配.针对此问题,本论文利用短语融合异质信息网络表示社区问答系统的实体关系;然后,根据用户的问答记录提取用户背景知识;最后,联合问题语义与提问者的背景知识进行知识库检索,并将相关的知识实体转化为自然语言答案.实验表明,该方法在答案生成任务中领先对比方法约3%的答案准确度.
其他文献
基于核心素养理念、学生学习存在问题和原因,以及学校内部教学管理存在问题,提出"学养课堂"的观点和"学本治理"学校的主张。"学养是学习的关键能力和必备修养"的理念,要探寻"学习"与"修身"、"知"与"行"、"才"与"德"的辩证统一和共生合一育人之道。文章以深圳市龙华区创新实验学校和高峰学校的10年实践研究经验为例,积累了丰富的经验,构建、实践了以学养评价、学养课程、学养课堂、学本治理"四位一体"的学
中国乡村旅游民宿产业经过近40年的快速发展,已经成为重要的住宿业态、旅游业的重要吸引物和乡村振兴的重要抓手。作为典型的"草根经济"形态,在遭受本次新冠肺炎疫情的重创之后表现出顽强的生命力,加上各级政府精准扶持,特别是通过疗休养拉动消费政策的大力推进,民宿产业生产力得到保存,但仍将经历新一轮"洗牌"。鉴于其在新发展格局中的特殊作用,民宿产业已经搭上新发展阶段国家战略的快车,即将迎来新一轮高质量发展的
高强度间歇训练(High-intensity Interval Training简称HIIT)是近年来兴起的一种训练方法,是一种在短时间内进行全力、快速、爆发运动的一种训练方式。目前高强度间歇训练已合理融入至各个项目之中,但与英式橄榄球相结合的研究为数较少。因此,本文利用高强度间歇训练的理论与方法,深入探讨高强度间歇训练与英式橄榄球之间的关系,为英式橄榄球运动制定更为科学的训练模式提供理论依据。为
甜瓜是我国农业生产中一种重要的园艺作物,传统的农业生产模式在枯萎病、根结线虫病等土传病害的危害下导致无法连年耕作,已成为限制我国瓜类蔬菜优质高产的重要因素。对瓜类蔬菜进行嫁接可以解决连作障碍,提高产量和果实品质,同时提升植物的抗逆性能力,嫁接技术已经大范围应用于现代化的农业生产当中。本研究将以甜瓜做为瓜类蔬菜代表作物,通过两种不同染色技术,确定甜瓜嫁接苗维管束中木质部和韧皮部连通的具体时间,从而确
目的:探究在冠心病治疗的过程中,使用阿托伐他汀联用依折麦布的临床效果。方法:针对40例冠心病患者采用阿托伐他汀治疗,并归为对照组,针对另外40例患者采用阿托伐他汀联用依折麦布治疗,并归为观察组,两组患者均为我院2014年6月到2016年9月间收治。结果:两组患者在治疗前,各项指标均无明显差异,经过分组治疗后,观察组患者出现十分明显的改善,针对治疗的有效率进行比较发现,观察组患者97.5%明显较高(
研究目的:1.1实验验证在分立动作技能学习过程中,集中练习的学习效果是否优于分散练习.1.2探讨练习与休息的时间如何分配,才能最大程度的提高分立动作技能学习效果。研究方法:本研究采用了文献资料、实验和数理统计等研究方法,其中实验法是主要研究方法。2.1实验法2.1.1实验任务的选择实验任务选取足球脚内侧踢定位球这一分立动作技能。2.1.2研究假设以练习分配效应为理论基础,提出本研究假设:分立动作技
学位
Slater以及Harary和Melter分别在1975年和1976年独立地把度量维数的概念引入图中.图的度量维数是指该图中基数最小的解析集的基数.由于其在图论、化学、生物、机器巡航、组合优化等方面都有许多重要的应用,所以研究图的度量维数有着极其重要的意义.本文主要研究了折叠n-立方体的度量维数、边度量维数、7)-度量维数及其相对2-设计.特别地,我们给出了一些图边度量维数的精确值.所得成果如下:
我为《阿Q正传》(以下简称《正传》)作笺注的想法萦绕在脑海已有多年,今年方才作成,足见自己不是笺注的好手。注疏,一般人看来,不及著述远甚,"尔雅注虫鱼,定非磊落人",饾饤之技,不足称学问的。然而,我拖延的原因却是担心自己琐屑杂乱的学问尚不能胜任笺注《正传》的工作—面对这部文学经典,惶恐在所难免。
期刊
1 1/2-设计作为亡t1/2-设计的子类有着良好的结构与性质,并且与众多的关联结构,如:平衡不完全区组设计,横截设计,部分几何,差集,差族,11/2-差集,部分几何差族,有向强正则图,结合方案等有着密切的联系.本论文主要从以下三个方面对11/2-设计进行研究:1.利用11/2-设计构造类数为3的对称结合方案.设(V,B)是一个参数为(v,b,k,r;α,β)的11/2-设计,假设V中任意两个不同