面向问答的问句关键词提取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sunjuanhuahard
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答系统是目前自然语言处理领域中的研究热点之一,它以精准的答案直接回答用户以自然语言方式表达的问题。在问题分析时,提取问题中的关键词对于理解其语义至关重要;在问题检索时,关键词的提取的效果直接影响到信息检索的结果和答案的相似度计算与排序。因此,关键词提取是问答系统的基础,面向问答的问句关键词提取技术研究对提升问答系统的性能有着积极作用,能够为问答系统带来更好的用户体验。本文重点研究了两类问句关键词提取技术:无监督的关键词提取方法和有监督的关键词提取方法。有监督的关键词提取方法又分为:基于特征选择的机器学习方法和自动学习特征的深度学习方法。基于图模型的关键词提取算法发展较为迅速。本文提出了基于依存分析排序的无监督方法提取关键词,引入词向量,从语义的角度衡量词语的相似度,引入依存句法分析,从句法结构的角度来表示两个词语之间的关联度,利用基于图的排序算法,更加准确地对候选词语进行排序,提高关键词抽取的效果。基于特征选择的机器学习方法提取关键词,将依存句法特征应用到关键词提取技术中,通过特征分析,选取最有效的特征,利用最大熵模型训练分类器,来判断候选词是否为关键词。实验结果表明,依存句法特征有助于提高关键词提取的效果。自动学习特征的深度学习方法提取关键词,能够让机器自动学习关键词的特征,并将特征学习融入到模型建立的过程中,避免了特征工程。在我们的研究中,利用LSTM模型构建神经网络层次,将目标词语的上下文信息都输入到模型中,更好地利用了词语的语义信息。同时,为了解决人工标注训练数据不足,无法满足模型训练需求的问题,我们提出了两段式的训练方法。实验证明了深度学习的关键词提取方法的有效性。
其他文献
近年来,随着计算机网络技术的不断进步,以P2P网络、Ad hoc网络为代表的一类新型网络迅速发展起来。这些网络往往由理性的自治节点通过自组织方式相互连接而成,故可统称自组织网
区域医疗协同是卫生信息化经过医院管理信息化、临床管理信息化两个阶段后新的发展需求,其目的是使分散在区域内不同医疗机构的卫生数据得到充分的共享,有效的整合数据资源,
学位
无线传感器网络由大量的微型、廉价、低功耗的传感器节点组成。这些传感器节点不仅能够探测包括地震、温度、湿度、噪声、光强度、压力、土壤成分、移动物体等多种多样的现象
交通系统智能化的快速发展,设施设备特别是卡口数量的快速提升,使得过车记录飙升,形成大规模数据。卡口系统中,用户常常需要对车牌号进行精确或模糊查找,同时要求数据检索系
机器视觉是用计算机来模拟人的视觉功能,其中非常重要的一环就是图像处理。特征提取是图像处理中的一个重要研究方面,而角点是图像中非常重要的特征,包含丰富的图像信息。角
H.264是由ISO(国际标准化组织)与ITU(国际电信标准化部门)联合制定的新一代视频编码标准。H.264具有较高的压缩率、较好的图像压缩质量以及网络亲和性,因此在存储和网络传输
在互联网技术飞速发展的今天,Web服务在Internet上的应用不断扩展,电子商务等Web服务应用已经被广大用户所熟知,成为了大家日常生活的一部分。Web服务在给使用者带来很多便利
在当今社会中,教育伴随着人的一生。随着现代网络技术的发展与信息技术的应用普及,计算机教育信息系统的可视化研究成为当前教育的一个热点。教育信息系统层面很多,我们主要
学位
网络入侵检测是保障计算机网络安全的重要技术,现行的入侵检测主要是依靠领域专家的经验和知识,难以应对各式各样的网络攻击。本文在对网络入侵检测的研究现状进行分析之后,
氧气在医疗、冶金和化学工业等领域有着广泛的应用,而这些应用,对氧气的浓度都有着严格的要求。因此,以一种便于使用的方式,精确地测量氧气浓度,对提高产品质量、保证生产环