基于CW-BLSTM-CNN的中文问题分类研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:Monkeysct
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网是信息传递的重要媒介,互联网的极速发展促使互联网上累积了海量的数据,如何从海量数据中快速准确获取有价值的信息对传统搜索引擎提出了巨大挑战。问答系统本质上是一种更加智能化的搜索引擎,问答系统能够从自然语言形式的问句中获取用户需求,并根据用户需求寻找准确简洁的答案。问答系统智能高效的特点使其成为近年来的热门研究课题。问题分类,也称之为答案类型检测,是问答系统的关键模块之一,对问答系统的最终结果具有很大影响。问题分类准确率的提高,对问答系统正确理解用户需求、检索准确且简洁的答案具有极为重要的意义。近年来,深度学习发展迅速,为问答系统中的问题分类任务贡献了新思路。但是,迄今大多数的中文问题分类研究均是基于朴素贝叶斯和支持向量机(SVM)等传统机器学习方法,基于深度学习方法的中文问题分类研究依然比较匮乏。于是本文根据传统机器学习算法在问题分类任务上的局限和中文问题分类的特点,研究如何使用基于深度学习方法去完成中文问题的分类任务。主要的研究工作如下:第一、对HIT-IRLab中文问题分类数据集进行了统计和分析,发现该数据集各类别问句数量分布不均。针对该问题,本文提取NLPCC2017中文问答数据集中的问句,利用人工标注和机器标注相结合的方式,补充HIT-IRLab中文问题分类数据集,使各大类问句数量分布比较均衡。第二、本文研究了中文问句的分布式表示方法。研究发现:分词软件无法保证分词完全正确,且问句中存在未登录词;单独使用词向量不能避免分词误差和未登录词对问句语义表示的影响;而且,字和词在汉语的表示中都有重要意义。于是本文提出使用词向量与字符向量共同表示问句。第三、针对中文问题分类的特点,本文设计了一种能够融合问句字符向量和词向量表征的CW-BLSTM-CNN神经网络模型,该模型结合了 BLSTM和CNN的特点,能更好的捕获中文问句的语义信息。本文模型在补充之后的HIT-IRLab中文问题分类数据集上精准率达到94.28%,优于传统机器学习方法和常用的深度学习方法。
其他文献
目的:探讨静息态下不同性别抑郁症患者的脑功能特点及其差异。方法:男女抑郁患者各11例及性别、年龄、受教育程度均与患者匹配的健康对照22例参加静息态fMRI扫描。结果:男抑郁组
公交系统是一个相对开放的系统,影响公交运营的因素众多且复杂,其中公交系统的内部影响因素包括公交客流波动,车队车辆配置情况,调度方案的执行情况等,外部影响因素包括工作
"细节,体现品质。"辅料,作为成衣生产中必不可少的细节,不仅是成衣品质的体现,更是服饰产品设计中的点睛之笔,是服装设计理念的"语素"和"语境"延伸。在国内辅料企业以多样化
随着全球化进程的日益加深,世界各国之间的文化交流日益频繁,尤其是在经济飞速发展的今天,文化和语言因素开始逐渐被人们所看重。所谓软实力竞争,在很大程度上就是各种文化和
<正>1"老西门"项目的时代性|崔愷|对于"老西门综合片区改造"这个项目,我觉得跟时代发展到了今天这个阶段密切相关。目前,中国经济进入了一个慢行期,整个社会都进入了调整期,
射击运动是静力运动项目,尤其是步枪项目,技术动作要求身体姿势规范并保持相对固定较长时间。在气步枪和卧射中,运动员常常需要保持一个姿势动作60 min以上,期间偶尔会有小幅
本文以云南省为例,针对机动车联网综合检测平台建设现状、需求及实现方法进行了研究。论文运用工程理论,通过广泛调研、系统分析等方法,结合云南省机动车联网综合检测现状,通
长链非编码RNA(long non-coding RNA,lncRNA)是指转录本长度超过200个核苷酸的不编码蛋白的RNA。lncRNA参与了各种各样的生物学过程且发挥重要调控功能,如:细胞增殖、凋亡、
【目的】建立和优化金铁锁SSR-PCR反应体系。【方法】以金铁锁嫩叶为试验材料,采用Ezup柱式植物基因组DNA抽提试剂盒、SDS法和CTAB法提取金铁锁DNA,并对提取结果进行比较。利
目前,微博网络迅猛发展,微博成为网民们交流信息的主要平台之一。在微博网络中用户是主体,学者通过对微博中用户的属性和行为进行研究发现,少量的核心用户对网络的信息传播起