基于语义扩展与多层注意力模型的问题细粒度分类方法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:hongxingdehong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,随着互联网技术的迅猛发展,一大批社区问答网站开始涌现,比如Yahoo!Answers、Stack Overflow以及Quora等。用户可以在这些网站上自由地提问,也可以回答其他人所提出的问题。每个用户在使用问答网站时都希望能够尽量快速准确地满足自己的需求,因此如何对已有的问题进行准确的、细粒度的分类已经成为一个重要的研究课题。目前,问题的细粒度分类主要存在以下几个难点:(1)问题文本长度短,从有限的文本中难以提取充足的信息来确定问题文本的主题;(2)标签信息量少,在实际应用中难以通过标签的信息来获取主题信息以及所属领域信息;(3)细粒度分类任务中,各个类别之间的特征差异小,如何引入更多的信息来将问题的主题与具体的细粒度分类的类别进行匹配是问题细粒度分类研究的重点。针对以上几个难点,本文提出了基于语义扩展与多层注意力模型的问题细粒度分类算法(Classifying Questions into Fine-Grained Categories using Semantic Expansion and Multi-layer Attention Network,SEMAN),其中语义扩展解决了原始问题文本信息量少的问题,而多层注意力模型可以得到类别之间的微小的特征差异,进而提升分类效果。本文最主要的贡献有:(1)本文提出了基于依存句法分析树的语义单元选择方法,该方法可以准确找出问题文本中的中心成分,并且围绕该中心成分可以找出包含问题语义信息的关键短语或者核心词。(2)本文提出了基于Word2Vec模型的语义单元扩展算法,该方法利用Word2Vec模型中相近语义之间的词的距离接近这一特性,对原始问题文本进行了语义层面的扩充。(3)在语义扩展基础上,本文提出了多层注意力模型,该模型可以避免传统的注意力模型在文本向量化表示时只能提取句子单个方面语义信息的问题,从而充分提取句子在多方面的语义信息。本文的实验基于Yahoo!Answers医疗领域数据集和Yahoo!Answers教育领域数据集。为了验证本文提出的SEMAN算法的有效性,本文设计了多组对比实验。最终的实验结果表明,本文提出的SEMAN算法在各项评估指标上均取得了较好的结果,可以有效地解决问题文本特征稀疏、细粒度类别特征差异不明显的问题。
其他文献
在日地空间物理的研究中,极光是唯一可以通过肉眼观察到的地球物理现象。合理的极光形态分类对研究各类极光现象与地球磁层动力学过程之间的关系十分重要。随着我国极区高空
随着信息技术的飞速发展与广泛应用,Internet中产生了巨量的文本信息。如何从这些文本信息中提取出有用的信息是目前国内外研究人员重点关注的课题之一。关系提取是信息提取
近年来,随机非线性互联系统因其复杂的属性及其在实际工程中广泛的应用,使得该类系统一直都是控制领域中一个热门的研究课题。虽然吸引了国内外学者的关注和研究兴趣,但随机
随着新兴的网络视频相关服务和设备的兴起,例如视频共享、视频广播、广告和视频推荐等,网络视频的数量急剧增长。越来越多的用户参与到视频相关的活动中,包括上传和下载视频,
随着信息技术的高速发展,图像作为一种描述目标物体十分形象有力的表达方式,慢慢变成从业者获取信息、分析信息和利用信息的重要手段。经过这些年的发展,深度学习方法取得了
通常信号的相位和振幅信息是研究人员判断正确信号的重要依据,但在衍射成像等领域下,一般光学监测设备仅能测得图像的傅里叶变换的振幅信息,往往还被噪声所污染,这就影响了研
近几十年来,网络控制系统(NCSs)在控制和通信科学领域受到了广泛的关注和重视。所谓网络控制系统,即系统装置信息和控制器信号通过数字化、智能化的网络通信通道进行传输的闭
面对新一代移动互联网的浪潮,电信运营商的竞争和挑战前所未有。提供客户的新服务竞争力将成为运营商生存的关键。电信客服平台作为海量的客户接触部门,其海量的数据中蕴藏着
在生物学领域,识别microRNA(miRNA)与疾病之间的关联性对于临床医疗具有极其重要的意义,因此构建miRNA与疾病关联网络受到生物科学界越来越大的关注.然而,现今在这方面的研究
随着大数据时代的到来,每天产生大量的图片和视频数据,计算机视觉作为对图片进行处理的计算机技术,越来越多的被应用到日常生活中来,如目标识别,目标检测,语义分割和目标追踪