面向知识库和个性化的对话系统关键算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:Tsianyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
1950年图灵测试的提出使得学术界掀起了研究对话系统的热潮。随着21世纪信息时代的到来以及互联网的蓬勃发展,人们的日常活动与互联网的联系变得更加紧密。因此从互联网上收集对话数据变得更加容易,这给对话系统的研究提供了良好的数据基础。近几年,得益于深度学习的崛起以及计算机硬件性能的提升,对话系统不再仅仅依靠规则匹配和检索的方式,而是逐渐转变为生成式对话系统。本文主要研究的是开放域生成式对话系统,不同于特定领域的对话系统,其目标不是为了完成用户指定的任务,而是为了吸引并留住用户,令用户有兴趣继续交谈。目前开放域生成式对话系统主要采用序列到序列模型,然而标准的序列到序列模型存在一些问题:(1)由于语料库本身存在大量的安全回复,使得模型倾向于习得简短而乏味的通用回复;(2)由于模型没有结合外部知识信息,生成的回复信息含量低且不具备吸引力;(3)由于模型缺乏人物个性,所以对于语义相同或者相似的输入语句,模型生成的回复通常是不一致的,降低了用户对于模型的信任度。针对以上问题,本文的主要工作如下:(1)提出了一种结合知识库的开放域回复生成模型KGDlg。通过融合网络将知识图信息与用户输入相融合,并将融合结果输入到解码器中,使得解码器可以使用与用户输入相关的知识图信息来生成回复。此外,模型还使用用户回复(在测试阶段为检索回复)来修正解码器对于知识图的选择,以便解码器可以利用正确的知识图信息。(2)提出了一种面向个性化的开放域回复生成模型PersonalDlg。在模型训练阶段利用真实回复作为后验分布来帮助判断每条个性化信息对于生成回复的重要性,通过该分布可以对在真实回复中实际使用的个性化信息给予更大的权重,有助于指导解码器生成包含正确个性化信息的回复。在测试阶段由于没有真实回复,使用一个先验分布来近似后验分布,这样即使不存在真实回复,模型也能够选择适当的个性化信息用于生成回复。总体来说,本文主要研究面向知识库和个性化的开放域回复生成模型并在真实数据集上对两个模型进行训练。通过对比实验,证明了KGDlg模型可以生成信息丰富的回复,并且PersonalDlg模型可以生成与个性化信息一致的个性化回复。
其他文献
春暖花开,阳光明媚,本是好事一桩,可是这个季节里有许多宝宝会出现皮肤干痒、红癍、鼻痒、喷嚏不断、喘憋等过敏性问题。怎么办?还是请专家给出建议,让宝宝远离过敏,享受春光
寻衅滋事罪是我国刑法中规定的一项罪名,以往并不常用,但近年的使用频率大幅增加,存在口袋化的倾向。刑罚作为我国最为严厉的处罚措施,刑法中每一个罪名的适用都会对当事人产
【要旨】$$网贷类非法集资案件的“非法性”判断,应当以国家金融管理法律法规作为依据。国家金融管理法律规定具有体系性、禁止性等特征,不仅包括商业银行法等专门法律法规,也可
会议
新华社太原4月16日专电(记者 吕梦琦)15日在太原举行的山西省新能源汽车整车与零部件企业对接交流会上,与会各家汽车生产企业表示,“十三五”期间将大力发展新能源汽车,使新能源汽
报纸
<正>工业制造过程中,大量使用工业机器人是最近几年制造业转型升级的一个重要突破点,工业机器人技术是先进制造技术的代表,也是制造企业竞争力的集中体现。据统计显示,自2013
道德风险行为是保险中介市场严重的机会主义表现,是保险市场较为普遍的现象。具体来说,公估人的道德风险行为是指公估人在得到保险公司的业务委托后,为使自身效用最大化而不惜损
<正>李克强总理在2015年3月5日召开的十二届全国人大三次会议上提出制定"互联网+"行动计划。"互联网+"是一种在互联网技术飞速发展的基础上提出的具有现实意义的新形态,具体
<正>糖尿病作为一种严重危害人体健康的慢性疾病,其并发症波及全身各脏腑器官,对人类健康和生命产生严重威胁。据2010年发表的"中国人的糖尿病患病率"研究表明,目前我国的总
为了更加有效地开发旅游目的地,本文对目的地竞争力的要素和来源进行剖析,从而确定了旅游目的地竞争力的评价指标。从系统工程的角度分析了旅游目的地竞争力的来源,竞争力要
<正>2015年8月12日23:30左右,天津滨海新区塘沽开发区的天津东疆保税港区瑞海国际物流有限公司所属危险品仓库发生爆炸,事故造成55人遇难,抢险救援中牺牲110人。天津港"8·12