基于深度学习和主题模型的问答系统算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:karavika
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我们生活的智能化,通过人机对话就能与各种硬件设备进行交互,从而为人类提供语言信息服务、智能语音操控设备和提供娱乐聊天功能,如今已经成为了一个热门话题。本文主要研究基于深度学习和主题模型的问答系统,其中传统神经网络问答模型存在很多问题亟待解决,其中一个关键问题就是如何为开放域(open-domain)问答引入外源知识信息。为促进问答的丰富多样性,本文从主题模型和神经网络Seq2Seq(sequenceto-sequence)框架方面展开研究工作:1)Twitter-LDA(Latent Dirichlet Allocation)适用于短文本的概率主题模型,其假设是每个短文本归类于一个主题,引入主题模型为深度神经网络Seq2Seq问答模型引入了外源知识,因此问答模型除了从问答语料学习对话模式外,还能利用主题模型提取的主题词,弥补了Seq2Seq生成式模型缺少的外源知识信息,促进生成答案内容丰富多样性。2)融合主题到传统神经网络问答模型即神经网络主题问答模型,并使用大规模语料训练。神经网络主题问答模型的解码阶段,使用联合注意力机制即主题注意力(topic attention)机制和问句注意力(message attention)机制,使得问答模型解码生成词时能动态地利用问句语义向量和主题词语义向量。同时增加主题词偏置概率,促进生成主题相关的答案。3)针对神经网络主题问答模型中主题词噪声和问句语义理解问题,本文提出一种新的注意力增强的主题问答模型,并且对问答模型做进一步的优化工作。使用Seq2Seq编码的全局语义向量和动态加权的局部语义向量,两者的混合语义向量输入到注意力机制能更好挖掘问答语料中词的语义信息和减少无关主题词的影响,同时使用主题注意力的权重系数去调整主题词偏置概率,进一步增强与问句相关性强的主题词在答案中出现的概率,减少无关主题词噪声数据的影响。最后,基于大规模开放域问答语料训练主题问答模型,实验对比结果直观验证了阐述方法的有效性。
其他文献
养殖业作为我国农业农村经济的支柱产业,对保障国家食物安全,增加农牧民收入,推进农业现代化,促进国民经济稳定发展,具有十分重要的现实作用。小微养殖企业作为农村养殖业的
背景与目的:肾小球滤过率是指单位时间内双肾生成的超滤液量,是反映肾脏功能的重要指标,可作为病情判断、疗效观察和判断肾移植术后肾功能的客观指标。很久以来花粉清除率被公认
足球后备人才培养模式是否科学与规范,是评价某个国家与地区足球发展水平的重要因素,因此在足球运动的发展过程中,需要选择一种科学有效的模式。后备人才的培养目标不仅要向
一、问题的提出儿童的健康成长、素质的培养及发展离不开家庭教育。笔者针对家庭教育现状提了相关的28个问题,旨在了解家庭教育的整体状况,分析、研究、改进家庭教育的方法,提高教
以秦始皇兵马俑博物馆景区游客微博数据为依据,运用Arcgis10.0和ROST CM6软件,结合内容分析法中的情感分析方法,研究了兵马俑游客体验时空特征。结果表明:(1)欧洲市场和我国
目的探讨64层螺旋CT在冠状动脉狭窄诊断中的临床应用价值。方法入选了60名临床上具有高危因素的可疑及已确诊的拟行冠状动脉造影的冠心病人,在有创血管造影前一天先进行对比剂
长期以来,以化石能源为主的不可再生能源被过度消耗,致使人类生存的生态环境受到了严重污染。在此背景下,寻求安全可靠的可再生清洁能源已成为当今国际社会的重点研究内容。因此,太阳能具有光明的发展前景。在各类太阳电池中,钙钛矿太阳电池是可再生能源研究中的热点研究内容。近期,中科院半导体研究所的游经碧课题组将钙钛矿电池效率提升至23.7%。在各类电子传输材料中,二氧化钛(TiO_2)因其无毒、高电子迁移率、
根据新课标要求,自主设计"问题研究:厦门的共享单车何去何从"的探究材料为教学内容,通过"课前体验共享单车,发现问题""课中合作探究共享单车现状,解决问题""课后实践反思,畅
本研究以四川、云南和西藏地区的150株云南松地上部分生物量实测数据为基础,对云南松干材、树皮、树枝以及树叶等器官的生物量分配规律进行了分析。根据地上总生物量以及树干
<正>纳粹主义造成的文化灾难同样也造成了西方思想传承的巨大断裂。显然,我们还在不断地发现遭受污染的规模,其后果就像切尔诺贝利一样在持续裂变,尽管那些源自纳粹灾难的事