任务型人机对话系统的研究与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:cainiao13939867
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
任务型人机对话系统通过实时聊天式的自然语言输入,准确地理解用户意图,自动构建与执行任务,回复给用户任务执行的结果。由于任务型人机对话系统能以更自然的方式完成用户的各类信息类任务,极大提升了用户体验和任务执行效率,因此成为学术界和工业界的研究热点之一。但是,由于不同业务领域的任务型对话系统需要该领域的大量历史对话数据作为支撑,而大多数平台往往缺乏这样的数据积累,这使得任务型对话系统的研发面临冷启动问题。同时,用户意图理解的准确率还有待进一步提升。在此背景下,本文研究任务型智能对话系统的关键技术,提出了冷启动环境下任务型对话系统的解决方案。该方案提出规则与机器学习结合的办法进行用户意图分类,缓解冷启动问题对机器学习模型性能的影响;设计了集成式CRF模型进行用户意图槽位标注,并构建与利用了领域知识库解决OOV问题,帮助提升槽位识别准确率。在此基础上,本文设计与实现了一套任务型对话系统的引擎,支持多轮对话下用户意图的精准理解与获取,自动构建任务API调用,根据任务执行结果生成答案。本文的主要贡献包括:1)研究提出了规则与机器学习结合的用户意图分类方法,有效缓解了冷启动问题。在基于规则的意图分类时,本文设计规则库,提出了启发式中文词语相似度计算方法和规则模糊匹配算法。在基于统计学习的意图分类时,本文设计了word2vec和n-gram等特征,提出了基于SVM、NaiveBayes和Decison tree的集成学习模型。然后,提出了这两种方法的加权融合策略,对两种方法进行互补,以提升意图分类效果。实验表明,本文方法的意图分类F1值在冷启动环境下可达到82%,超过基准方法。2)研究提出了基于领域知识库的槽位标注技术,有效缓解了OOV(Out-ofVocabulary)问题,提高了标注的准确性。本文构建了一套领域知识库,利用知识库进行实体归一化处理;同时提出了集成式的CRF模型,对不同用户意图类别训练多个CRF模型,并根据分类的概率分布结果对各个CRF模型的处理结果进行加权合并,得到最终的槽位标注结果,以提升模型的鲁棒性和标注的准确性。实验表明,所提出的集成CRF模型的槽位标注F1值达到92%,超过CRF模型(88%)和RNN模型(83%)。3)基于上述技术,以软件众包为领域背景,开发了任务型对话系统的引擎。该引擎已和软件众包平台进行了集成,并通过了一系列测试。测试结果表明,该系统通过自然语言文本交互方式便捷地帮助用户完成各种业务操作,用户任务完成的准确度达到88.2%,单轮对话的平均响应时间为0.695秒,达到了预期的目标。
其他文献
统计学家们对现实生活中的各种数据进行探究,了解到了一类具有尖峰厚尾特性的偏斜数据的存在,且它们大多出现于金融、经济、生物医学和环境科学等领域,具有对称数据所没有的
普通高中英语新课程标准(2017版)指出为了培养学生的学科核心素养,英语教学应该引导学生采用自主、合作的学习方式,参与主题意义的探究活动,具体表现在培养学生用英语获取信息、处理信息、分析问题、解决问题、以及用英语进行思维表达的能力。阅读圈类似于美国在20世纪90年代采用的文学圈活动(Literature Circles),是一种由学生自主阅读,自主讨论与分享的阅读活动(Furr,2007)。它有助
随着科技的飞速发展,人们对电子产品的性能和功能提出了越来越高的要求,其中就包括扬声器这一电子产品。扬声器的参数是反映其性能的主要指标,所以,为了提高扬声器的性能,对
在双AR(p)模型的基础上,选取了具有代表性的沪深300指数,并对其部分股市收盘价序列进行了平稳化处理,研究了近期中国股市的股价波动.在双.AR(p)模型严平稳条件下进行了模型诊
《惊蛰之后》(陕西师范大学出版社,2017年9月)是当代散文作家李育善的第三部散文集。作品以写实的方式原生态地记录了当下社会转型阶段中国城乡的真实状况,讲述基层百姓的故事,呈
近年来在医院管理领域,出现过各种理论和管理模式,医院也从改革开放前单纯的医疗福利单位,走过了市场化、企业化的探索历程,现在又回到了以“建设覆盖城乡居民的基本卫生保健
1905年,莱哈尔将梅亚克的《大使馆随员》改编成为轻歌剧《风流寡妇》,该歌剧由三幕构成。并通过维克托莱昂(1860—1940,Viktor Leon)和雷翁斯坦(1872-1947,Leo Stein)合作创作脚本。这部作品是莱哈尔于维也纳时期的经典作品。笔者将在个人毕业独唱音乐会中对其中著名的女高音咏叹调《维利亚之歌》以及二重唱《默默倾听》进行演绎。文章通过对作曲家的简介、作品的产生背景以及音乐
近年来,随着我国素质教育的不断提升,中华民族优秀传统文化也得到了极大的弘扬。古诗词作为中华民族传统文化的瑰宝,一直以来都与音乐文化有着密不可分的联系。古诗词艺术歌曲,顾名思义是指选取中国古代优秀的诗词所创作而成的歌曲,按曲谱分为两类,一类是古典传统的古诗词歌曲,整首歌曲都引用原来的词、谱;另一类是近现代作曲家们将经典的古诗词谱曲成歌,并配以艺术性较丰富的钢琴或乐队伴奏。不论何种形式,均是诗、曲、声
人们普遍推测控制SO2排放可以促进加拿大、美国和欧洲的酸化淡水湖泊的恢复.本文研究了1998~2000年间靠近安大略省基拉尼公园的22个湖泊(pH值范围4.5~7.7)的浮游生物群落变化,
控矿构造一直是热液矿床研究的难点之一,本文以大兴安岭中段为研究对象,通过1∶25万柴河镇幅和蘑菇气幅地质调查,提出:(1)该区主干控矿构造由大黑山—太平岭—鸡冠山北断裂带