基于深度学习的文本表示与分类方法研究

被引量 : 104次 | 上传用户:ghmyjp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的广泛应用以及信息化建设的广泛开展,文本信息正爆炸式的增长,如何从众多资源中获取有效的信息成为关注的焦点。对文本内容提取和分类将成为解决文本信息管理问题的关键手段。其中,文本分类的基石是文本表示。传统的文本表示采用计数的表示形式。这种表示方法假设词与词之间是独立的,忽略了文本语义信息;并且在特征选择时引入很多人为的因素,提取到的特征具有高维度和高稀疏的特点,不能有效地表示文本。与此同时,现有文本种类多样、主题丰富给文本分类带来了新的挑战,尤其面对标签分布不均衡样本集时,传统分类方法的泛化能力较差。因此,设计新的基于语义的文本表示和分类算法已成为研究热点。近年来,深度学习通过所特有的层次结构,能够从低(浅)层特征中提取高层特征,很好地解决了这些问题,为提取有效的文本表示与建立高效精准的文本分类模型提供了有力的支持。深度学习技术在图像、语音和自然语言处理等领域都取得了重大进展,展示出了潜在的应用价值。因此,本文开展了基于深度学习模型的文本表示与文本分类相关研究,并取得了如下研究成果:1.基于混合深度信念网络的多类文本表示与分类方法针对普通、规则且多类的分类任务(如新闻文本),传统的Bag-of-words(BOW)表示面临高维度高稀疏的问题。本文基于文本关键字,以关键字的词向量表示作为文本输入,同时结合深度信念网络(Deep Belief Network, DBN)和深度玻尔兹曼机网络(Deep Boltzmann Machine,DBM),设计了一种HDBN(Hybrid Deep Belief Network)模型。文本分类和文本检索的实验结果表明,基于词向量嵌入的深度学习模型在性能上优于传统方法。此外,通过二维空间可视化实验,由HDBN模型提取的高层文本表示具有高内聚低耦合的特点。2.基于卷积神经网络结合深度玻尔兹曼机的多标签摘要文本表示与分类方法针对摘要类型的多标签文本分类任务(生物医学摘要文本),除了每篇文档有多个标签以外,还面临着该领域特殊的挑战:文本只含有题目和摘要信息,同时含有大量的医学生物词和缩写词。对此,本文分别提出了解决方案:首先,提出一种基于序列的文本输入表示方式(Document word SequenceEmbedding,DSE)。DSE用维基百科和命名实体对题目和摘要的文本信息进行扩展特征,并嵌入词向量表示,更好的保留文本上下文语义信息。其次,以扩展后的词向量作为文本输入,本文提出一种基于CNN(Convolutional Neural Network)模型提取文档的局部特征,结合DBM融合全局特征的模型(Boltzmann-Convolutional Neural Network,B-CNN),更好的提取高层文本表示。最后,通过标签聚类以及标签共现的相关关系,本文构建标签层次树,并设计有效的层次网络实现标签树。除此之外,本文还推导了B-CNN模型的误差传递求导公式,使得模型基于整体进行有监督训练和微调。实验结果表明B-CNN模型不仅在生物医学文本上获得好的性能,在其它领域也获得不错的效果。3.基于长短时记忆模型的不均衡多标签全文文本表示与分类方法对比多标签摘要文本分类任务,多标签全文分类任务面临两个新的挑战:(1)没有明显的文本关键词,需要依靠全文的词向量来进行文本表示;(2)样本分布不均衡,严重影响分类效果。本文针对LSTM改进了一种基于序列预测的LSTM2模型。首先,本文以文档单词的词向量序列为文本输入,使用LSTM有效地对全文文本提取文档全局特征。同时,分析文档与标签潜在关系,提取文档局部特征。以文档全局特征和局部特征整体作为高层文本表示,从而有效提高稀疏标签预测的几率。然后,本文使用Parser构建语义标签树,提取包含文档原始标签集的最小子树,并以遍历子树生成的序列作为该文档的新标签(序列)。使用LSTM模型对每个文档的标签(序列)进行学习和预测。实验结果表明LSTM2算法有效解决不均衡多标签全文文本的预测问题。
其他文献
随着科技的发展和社会的不断进步,工程设计活动中的电气和自动化技术逐渐发展起来,并被运用在诸多领域中。电气和自动化技术是由不同的技术人员控制和操作的,其项目施工过程
古代掌权者为了使其权力得到人们的认同和服从,总是运用各种手段对其掌握的权力的合法性来源进行严密的论证:由追逐"天意"、标榜"神授"逐步发展到"权源于德",到了近代才转向"
通过对传统模式和BOT+EPC模式下的安全投资分析对比,针对BOT+EPC协同的安全管理技术给项目带来的经济效益和对社会经济发展的贡献建立了安全效益评价指标体系.应用AHP-灰关联
<正> 上海技术产权交易所和上海产权交易所共同组成了上海产权交易的有形市场。虽然这个有形产权交易市场形成较晚,但无论从交易规模还是活跃程度上,都居全国首位。
为了更科学地计算复杂交通流条件下的左转延误,分析了车辆到达和离去规律,采用排队增量累计(IQA)方法,提出基于IQA方法的信号交叉口计算左转延误计算模型,通过使用不规则的多
针对大牛地气田水平井增产的需要,通过建立气藏水平井分段压裂产能模型,优化了致密气藏水平井分段压裂裂缝参数;研究了套管井机械封隔分段压裂工艺、裸眼井水力喷射定点分段
斗舰是东汉末年及三国时期长江中下游的一种装备精良的新型战船。在决定三国鼎立局面的赤壁之战中,孙刘联军曾以之作为前锋,一举粉碎了曹操优势兵力的进攻。斗舰的型制在文献
将两阶段的数据包络分析模型应用于枢纽效率评价之中,构建了枢纽运营效率评价指标体系,及相应的两阶段数据包络非均一评价模型.从运营管理者的角度,对十个枢纽的运营效率进行
农村小学音乐教育一直以来是被专业音乐研究领域所忽视的范畴。当城市因为全球一体化而出现"本土流失化"的时候,农村音乐教育根据自身的地理、历史、经济、文化、传统应该做
高效抗逆转录病毒治疗虽然降低了艾滋病的死亡率,但不能清除潜伏在病人基因组中的病毒库,达不到治愈的效果。目前国际上艾滋病治愈的方法主要有早期强化干预、干细胞移植治疗