基于深度学习的答案选择算法研究和应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:hngyssh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前答案选择是自然语言处理领域的研究热点之一,在自动问答以及搜索应用中扮演着非常重要的角色。现有的答案选择方法更多的是关注短文本之间的匹配,缺乏对长文本应用场景的研究,难以解决长文本应用领域的“语义迁移”和“语义鸿沟”等问题。迁移学习和图神经网络近年来被广泛应用和研究,迁移学习具有融入外部知识的特性,图神经网络适用于长文本建模,因此本文针对长文本匹配难题,试图结合迁移学习和图神经网络来有效解决长文本答案选择问题,主要工作如下:1)答案选择方法的目的是对问题和答案进行正确匹配,其数据集主要表现为一个问题和多个候选答案的样例集合。现有的问题答案匹配任务中的答案选择数据集缺乏“短问题长答案”的特性,而在自动问答领域广泛出现长答案匹配的应用场景,因此本文为了更好地研究长文本下的答案选择方法,构建了500万数据量的“短问题长答案”的医疗领域答案选择数据集CMASD。2)研究迁移学习方法以丰富本文的长文本语义表征,本文提出基于BERT句向量的BertAttTL答案选择方法,并引入迁移学习方法通过孪生网络结构和注意力机制获得语义更加接近的句子级语义向量。通过多组对比实验和消融实验结果分析,其性能均超过了现有的答案选择方法。针对大批量答案搜索场景,其直接获得全部文本序列句向量的方式避免了预训练语言模型的多个文本对之间的耗时计算,且计算效率更高。3)研究图神经网络建模长文本答案,本文提出BertAttTL-GCN答案选择方法。通过构造细粒度数据网络图,使用GCN有效获得了长文本答案的细粒度语义信息,结合BERT句向量,BertAttTL-GCN在CMASD数据集上MRR值达到了77.26%。其在BERT句向量的句子级语义信息基础上,加入更细粒度的词级的语义信息,并通过问题和答案的语义交互,最终获得了更高的匹配精度。4)基于本文提出的答案选择方法和医疗数据集CMASD,设计并实现了医疗领域答案搜索系统,其具有更高的长文本答案搜索精度。
其他文献
社区是社会治理的基本单元,也是社会基层的利益及价值共同体。社区公共传播在增强社区居民核心价值观与归宿感认同感方面有独特的作用和重大的意义。因此,充分认识新媒体环境下公共传播的特性和实现方式,在社区治理中实现公共传播,是关系到社区善治和公民培育至关重要的问题。随着社会关系转型和传播环境变革,社区面临更多分歧、对立甚至冲突。更值得关注的是,在当前社会及媒体环境中,公民表达与参与往往带来非预期的结果,改
近年来位置商标在我国的申请量越来越多,然而申请人在注册过程中却屡屡碰壁,至今尚未有位置商标核准注册的先例。影响位置商标注册的法律问题主要有以下四点:第一,商标局、商评委和法院对位置商标的可注册性存疑;第二,商标局、商评委和法院对商标标志的认定定性不准确;第三,位置商标显著性的识别、证明及认定不易;第四,尚未涉及对功能性和近似性的审查。因此,通过对位置商标基本理论进行阐明,并运用比较分析法对国际条约
随着社会经济的发展思想政治教育也在不断的改革,并且在思想观念层次发挥着越来越重要的作用。中学阶段的《道德与法治》课程能够直接或间接影响学生的世界观,价值观和人生观的形成及发展。博大精深的优秀民族文化不但能够增强学生的民族文化意识,而且有助于维护国家统一和民族团结,以致促进社会和谐和持续发展。把优秀文化应用到教学当中,不仅能够保证它的真实性,整体性和传承性,而且有效强化学生的综合素质教育,还能够为学
农业作为第一产业,关系到我国民生问题,党和国家也高度重视农业的发展。党的第十七次全国人民代表大会就提出,要发展农业现代化。十八大,党中央进一步对中国农业发展道路做出了新的指示,我国要走中国特色的农业现代化道路。十九大,以习近平总书记为核心的领导团队提出“乡村振兴战略”。由于党和国家的重视,许多学者也纷纷为中国的农业发展出谋划策,其中华中师范大学的徐勇教授提出资本农业理论。该理论认为,传统的农业生产
目前互联网跟人们的生活息息相关,网络安全事件也层出不穷,人们在网路中的隐私数据成为了攻击者的目标。身份认证是登录系统的第一环节,也是保护网络安全的第一道防线,传统基于静态口令的认证方式需要人为记忆且存在弱口令的问题,也很容易遭到暴力破解、撞库等手段攻击。所以无口令身份认证技术成为国内外的研究热点,现有的无口令认证方案主要是通过硬件设备和生物特征进行身份认证,但是基于智能硬件的认证方式面临着硬件损毁
近年来,随着硬件水平的提高,目标跟踪取得了很大的发展。目标跟踪是指通过对一个视频序列进行分析,计算出所要跟踪目标在每一帧上的位置、大小等信息,为后续如目标识别、行为
随着科技信息与互联网应用的普及,人们每天需要通过多种媒介例如图像来获取外部世界的反馈。唐卡作为藏族人民创造出的独特绘画形式,也因此成为中华民族的文物与瑰宝。随着时间的推移,部分的唐卡由于保存不当而产生的折痕和霉斑等因素,最终从而导致图像质量下降。对于唐卡图像修复方法的研究也逐渐增加,然而其效果不尽相同。考虑到历史等客观因素致使一部分唐卡图像的完整原始信息很难获取,故本文主要针对唐卡破损和修复图像无
随着海洋资源在人类生产与生活中的地位日益重要,海洋工程己经成为当今科学技术研究的一大热点,水下自组织网络(Underwater Ad-hoc Network)的研究工作也得到了更多的重视。而路由协议作为网络通信的根基,成为开发海洋资源和发展海洋军事的关键技术之一。水下自组织网络使用水声信道进行数据传输,水声信道具有长时延、窄带宽、高误码率等特点,这些特点对水下自组织网络路由协议的设计带来了巨大的挑
对象检测技术是计算机视觉领域中的一个重要分支,对机器视觉、智能交通、数字安防等多个领域提供了重要的技术支持。例如在实现智能驾驶上,必须通过对象检测技术快速分析出周
既有强制研究较多关注强制作为一项对外政策工具,在促使对手政策转变方面所表现的效果,即强制的有效性,对于一国为何退出强制的研究尚不充分。当强制无法发挥政策效用,即强制失败后,强制国如何做出战略选择成为本文试图解决的问题。通过对后冷战时期(1990-2015)美国所实施的强制外交案例的分析,本文发现在大部分强制的失败案例中,美国最终选择兑现自己的承诺,诉诸直接的武力使用;但同时少量案例也显示,在明确发