卷积神经网络在问句分类中的研究与应用

来源 :昆明理工大学 | 被引量 : 3次 | 上传用户:xmyhehe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答系统是新一代的搜索引擎,它可以精确的检索答案给用户,更好的满足用户的查询请求。问句分类是问答系统中一个非常重要的环节,其性能直接影响到后期答案抽取的准确性,关乎整个问答系统的性能。由于一般问句较短,且训练样本数量较少的特点,直接采用文本分类的方法,对问句进行特征表示,再用机器学习方法训练模型,这种方法当问句类别特别多的时候训练出的模型准确率非常低。因为数据决定训练出模型所能达到准确率的上界,优化模型只能去逼近于这个上界,因此本文分别从数据和模型两方面入手,来提高训练模型的准确率。研究如何在有限的数据样本情况下,增加样本信息量。如何设计一个卷积神经网络模型在保证分类准确率的情况下,又能保持一定的模型泛化能力。本文结合实际项目中深圳广开银行问句数据集,主要取得以下成果:1.本文首先从数据入手,对问句的关键词位置进行同义词拓展,同义词为用户可能会问到的常用词汇。多个位置进行同义词拓展,最后进行笛卡尔乘积,这样能很大程度上的增加训练样本的问句数量。对拓展后的数据样本,再用传统的机器学习训练模型,实验表明采用拓展之后的数据集训练出的模型准确率较拓展之前有极大的提升。2.在对问句进行特征表示时,采用基于Skip-Gram的词的分布式表示模型来训练每个词的word embedding。再将问句的每个词的word embedding组合为二维矩阵的形式,用来表示该问句的分布式特征。之后设计了一种卷积神经网络模型对问句分类,为了降低模型的复杂度,本文只采用了一个卷积层和一个池化层。实验表明本文设计的卷积神经网络模型,相比于传统的机器学习方法,包括支持向量机,随机森林,逻辑回归等模型准确率均有提升。3.在上一章节基于卷积神经网络模型的训练之中引入句子结构信息。采用分段池化操作,在不同的分段上提取句子的主要特征。并加入dropout算法来提高模型的泛化能力,防止模型过拟合。实验结果表明,本文采用的分段池化方法,同时加入dropout算法后,能提高模型的准确率,最终在深圳广开银行57分类数据集上准确率高达85.1%。
其他文献
反射阵列超表面在无线远程通信系统中有着重要的应用,由于它们的增益很高、波束宽度很窄、结构很简单。本文提出了一种在X波段工作的反射式波束聚焦表面阵列结构与波束偏转表
镉是污染农田土壤中最为广泛存在的重金属元素,土壤镉污染对地球生态系统、农业生产及人类健康有着不容忽视的威胁,水稻作为镉富集能力较强的大宗谷类作物,如何降低其对镉的积累已成为当前国内外科研工作者共同关注的重大问题。本论文采用盆栽试验,选取蚯蚓粪作为有机质来源,研究淹水灌溉及湿润灌溉两种水分管理条件下蚓粪有机质对镉污染土壤环境中镉生物有效性及水稻积累镉的影响,并在此基础上进一步开展蚓粪有机质降低水稻镉
互联网是现代人们生活中必不可或缺的一部分。但现有网络体系架构很难满足各种新兴应用和技术的部署要求,网络僵化现象越发明显。网络虚拟化是解决网络僵化的一种重要手段,通
荧光分子断层成像(Fluorescence Molecular Tomography,FMT)是一种光学成像的新技术,可以从分子层面对病灶进行监测观察,为疾病的诊断提供帮助。根据动物体表产生荧光分布,使
管道结构作为五大运输方式之一,广泛应用于土木工程行业。管道在使用期间常常因为外力破坏、老化腐蚀、环境作用等影响因素而发生破坏,造成环境污染和经济损失,因此对于管道的损伤检测尤为重要,超声导波检测技术凭借其快速、高效、安全等特点,在管道结构无损检测领域中具有广阔的应用前景。本文利用超声导波探测技术,对直管段和弯管段结构中缺陷进行损伤定位以及其损伤程度的判断。(1)本文基于空心柱面导波理论,介绍导波相
全球能源危机对人类的生存和发展构成了威胁,使研究人员更倾向于开发和利用可再生资源,而温差发电因为具有无噪音、体积小、质量轻等优点,被认为是二十一世纪最有前景的新能源发展技术,但其输出功率过低、传热效果较差仍是很大的问题。为解决上述问题本文设计了微热管阵列集热型温差发电装置。本文先对系统的工作原理进行简单的介绍,为微热管阵列的材料选择以及整体结构设计仿真提供理论支持,然后对系统整体结构进行设计,选择
语义分析一直是自然语言处理研究领域的重要目标之一,在目前深层语义分析很难实现的情况下,浅层语义分析的重要性不言而喻。语义角色标注作为浅层语义分析的一种常用表达方式
随着互联网的发展,智能终端产业得到高速发展,随着移动终端被开发出各种各样的功能,移动端已成为人们获得所需信息的重要渠道和来源。目前市场上主流的移动端中,较为成熟的操
字库字体是信息记录、存储与交流的重要工具,被广泛地应用于计算机、报纸、书籍、杂志等传统媒介和新兴领域。随着各种风格字体的不断推出,也在不断触碰汉字及汉字书写规范性
随着互联网和信息技术的迅速发展,许多行业和企业对于数据中心的服务需求持续增长,数据中心的数量和规模都在成倍增长。云计算的出现,改变了传统IT基础设施的使用方式和软件