基于深度学习的短文本分类及信息抽取研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:gyl722
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展和网络信息的爆炸式增长,给人们带来更全面、及时信息的同时,也使得用户快速、精准地找到所需要的信息变得更加困难。信息抽取可从海量的数据中检索并返回给用户更加准确、简洁的信息,可以更好地满足用户的需求。文本分类可减少信息抽取的选择空间,并可针对不同的信息类型,制定不同的策略,是信息抽取不可或缺的前提步骤。现阶段,自然语言的句法和语义充分理解是文本分类和信息抽取的关键。人工提取自然语言的句法语义特征难度大、主观性较强,深度学习可自我学习特征,对自然语言理解具有可行性。利用深度学习的思想,可以主动学习文本的句法语义特征,进而学习到所抽取信息的深度特征,降低人工特征的制定的难度,并有较好的客观性。本文在文本分类和信息抽取问题上,借助CNN模型、LSTM模型以及传统句法树的优势,构造深度神经网络模型,挖掘文本的深度特征。本文主要工作有:在文本分类上,改进传统卷积神经网络模型(CNN),提出多粒度卷积核的方法,并联合长短时记忆人工神经网络模型(LSTM),借助两个模型的优势,提出一种新的学习模型(L-MFCNN),较好的对词序语义学习和深度特征挖掘。实验结果表明,该方法在没有制定繁琐的人工特征规则的条件下,仍然有较好的性能。在信息抽取上,本文用词向量表示问题句和候选信息句,并利用长短时记忆神经网络(LSTM)学习问题句和候选信息句的语义相关特征,再利用依存句法树分析选择句法结构特征,联合表层特征构造深度神经网络,学习问题、候选信息句和候选信息三者的内在关联信息。实验结果表明,该方法可自主学习到句子的句法语义特征,有较好的信息抽取性能。最后本文设计并实现了信息抽取的应用实例问答系统,将文中提出的深度神经网络的方法运用到问答系统中,通过实践验证,没有制定较复杂句法语义特征,问答系统具有较好的答案抽取性能。
其他文献
为了深入探讨预应力锚杆对节理岩体巷道顶板的加固机理和作用,采用ANSYS数值模拟软件,研究了不同节理位置和节理倾角等节理特征下,预应力锚杆支护前后节理面及巷道稳定性变化
目的:探讨高效液相色谱法(high performance liquid chromatography,HPLC)与全自动免疫比浊法(immunoturbidimetry,ITM)测定糖化血红蛋白(hemoglobin A1c,Hb A1c)的临床应用
通过分析食品供应链上可能引入重金属污染的几个主要环节,提出通过发展协作式供应链和建立完善以食品安全为中心的全程监控体系控制食品安全问题。 By analyzing several ma
根据高温扩散和空洞蠕变闭合理论,在恒温超塑性扩散连接基础上建立相变超塑性扩散连接数学模型,可确定各工艺参数,诸如循环上限温度、压力、循环次数以及升、降温速率等对连
目的 探讨动态血压监测联合护理干预对老年高血压患者血压控制及自我管理行为的影响。方法 选取2016年5月至2018年5月收治的86例老年高血压患者,按随机数字表法分为对照组和
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
竹子因青翠挺拔,奇姿出众,麦霜傲雪,四时常茂受到了人们的称颂。人们赋予它心虚节坚、坚忍不拔、风度潇洒的“君子”美誉。在悠悠几千年的历史发展长河中,竹子与人们的生活息息相
新时期汉语新词新语的爆发式产生,不仅极大地丰富了汉语词汇,使汉语充满了勃勃生机,同时也给汉语词汇系统带来了巨大的冲击。文章探讨了新时期汉语"X"族词语的界定问题、新时
<正>刘文金,男,湖南澧县人。1963年出生。先后就读于中南林学院、南京林业大学。现任中南林业科技大学家具与艺术设计学院院长、教授、博士生导师。高级室内建筑师。中国工业
<正>2016年,首届"新松班"落户萧山技师学院(筹)。"新松班"的成立,既是企校双方四年合作的新成果,亦是对企校双方"用十年时间在杭州培养一批顶尖机器人技能人才"战略布局的新