面向移动端的用户检索实体抽取系统设计与实现

来源 :北京大学 | 被引量 : 2次 | 上传用户:XIAOZHOU914
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体抽取作为自然语言处理的基本任务,在深度学习兴起之际,又取得了一系列突破性的进展。它作为问答系统、人机对话和机器翻译等任务的基础部分,所起的作用是不可替代的。而近来,随着人工智能的兴起和智能语义交互需求的增加,用户检索中的实体抽取成为很重要的一项功能,它相对于传统命名实体识别具有更宽广的领域需求,更严格的精度和准度需求以及更复杂的用户交互逻辑。我们可以借助实体识别结果,完成一系列的资源请求和服务分发,完成用户的需求,以及引导用户的潜在需求,这是新型的文本交互中非常重要的一环。本文基于此目标实现了线上和线下两套系统,其核心系统是实体抽取功能,辅以必要的模式匹配模块,以满足用户的热点需求和修正模型的识别缺陷。关于实体抽取部分,我们主要基于tensorflow框架对模型进行训练、调优和部署。在基线部署上,本文创新性地采用了seq2seq结构,实现了命名实体识别的基础框架;然后根据训练数据规模、输入模块粒度、归一化和注意力机制等对基线模型进行了调优;最后从词向量生成方法、注意力机制和新型模型三个方面对模型的结构进行了改进和优化。最终使得模型的效果提高了10多个点。在算法迭代过程中,我们通过整合模型和词向量增强,取得了最优的结果。最后,我们在微软的命名实体识别公开测试集上进行了模型的测试,并达到了比较好的结果。CNN编码器的实践、注意力机制的深度探讨以及实体去歧模型的调研,将作为本文后续的研究方向。其次在移动端的模型部署上,本文还针对硬件和软件两个方面进行了深层次的优化。软件方面,我们分别进行了模型压缩和数据结构优化;硬件方面则进行了依赖分离和硬件适配。总的来说,较好地解决了深度学习模型在移动端部署时所存在的内存占用高、执行效率低等问题,里边的诸多解决方法有很多值得借鉴的地方。
其他文献
施肥是影响土壤养分供给的重要因素。在上海葡萄主产区金山区和奉贤区各选择一个典型规模化葡萄园作为研究对象,考察不同施肥条件对巨峰葡萄土壤养分供给和产量的影响。结果
犹记得恩师毕业时嘱咐,要把自己当成海绵,永不停歇学习的步伐,所以参加省品德与品社优质课观摩活动,真是深感荣幸与欣喜。四天全省各地的课异彩纷呈,形式多样,让我收获颇丰,
“颠倒课堂”是国外在信息化、学习个性化背景下出现的一种教学方式,也译为翻转课堂,其核心本质是以学为本、以生为本,最终促进学生的自主学习,提升学生的学习能力。我校将“
现代非开挖铺管技术是指利用岩土导向。定向钻进等手段,在地表不挖槽的情况下,铺设、更换或修复各种地下管线的施工新技术。该技术社会经济效益显著,尤其可在一些无法实施开挖作
在企业战略制定当中,将受到来自多方面因素的影响。其中,会计信息是非常重要的一项因素,对企业发展具有十分积极的意义。在本文中,就企业战略差异与会计信息的价值相关性进行
语文教学要追求高效的课堂,就离不开练习的设计。练习是对课堂的有效补充,它是学生掌握知识、形成技能、发展智力的重要手段和必要途径。因此高效课堂研究的一个重要内容是探
建筑是关系到国计民生的一个重要领域。随着建筑艺术和建筑科学技术的进步,建筑早已不再是原始意义上遮风挡雨的居所,而发展成社会生产力水平、价值观和文化意识的象征。在城市
政府治理与村民自治的互动状况是影响基层治理未来走向的重要问题。现阶段乡村社会特性决定了无论是消极的"简约治理"路径或是单向的政府介入路径都无法实现基层的有效治理。
目的通过对慢性萎缩性胃炎患者和正常人舌苔菌群的分析,寻找两者之间的差异菌属。方法研究分为两组:慢性萎缩性胃炎患者组(30例,CAG组,主要为薄白苔)和正常人舌苔组(30例,HC
本文从竹林培育基础研究、育苗技术和经营技术三方面较系统的总结了我国竹林培育研究的主要进展。我国竹林培育研究处于国际领先水平,但同时也面临着诸多挑战,如区域间竹资源