【摘 要】
:
在数字化时代新趋势下,传媒通信等主要领域信息达到了极速的传播推广,掀起了社交网络的浪潮。用户在各大网络平台快速的收集翻阅信息,如社交网络微博、知乎论坛、以及豆瓣影评等。这类文本内容精简多样,但蕴含着用户的潜在需求、兴趣方向和行为意图等丰富的信息。如何处理短文本信息将其归纳整理提取有价值的知识为人们所用,一直深受研究者的关注。对比于长文本,短文本自身具有的特征过于稀疏,内容短少且对上下文语义具有较强
论文部分内容阅读
在数字化时代新趋势下,传媒通信等主要领域信息达到了极速的传播推广,掀起了社交网络的浪潮。用户在各大网络平台快速的收集翻阅信息,如社交网络微博、知乎论坛、以及豆瓣影评等。这类文本内容精简多样,但蕴含着用户的潜在需求、兴趣方向和行为意图等丰富的信息。如何处理短文本信息将其归纳整理提取有价值的知识为人们所用,一直深受研究者的关注。对比于长文本,短文本自身具有的特征过于稀疏,内容短少且对上下文语义具有较强的依赖性。针对以上问题,传统的机器学习模型等短文本分类方法无法得到令人满意的结果。近年来,借助于外部知识库来进行文本数据扩充成为研究热点,以及深度学习模型在自然语言处理(Natural Language Processing,NLP)领域获得了广泛应用如卷积神经网络(Convolutional Neural Network,CNN)、递归神经网络(Recurrent Neural Network,RNN)以及长短期记忆网络(Long-Short Term Memory,LSTM),它们能够对文本的顺序和位置进行优先考虑,对局部连续单词序列中的语义、语法信息具有非常好的捕获效果。但是忽略了非连续单词和语料句中长距离语义特征的全局依赖关系。目前,一种基于图的方式例如图嵌入或者图神经网络模型引起了广大研究者的关注,图神经网络能够直接处理丰富且复杂的结构化关系的任务,并且有效的完成对图中的全局单词语义特征信息的保留。图卷积神经网络(Graph Convolutional Network,GCN)在自然语言处理领域具有广泛的应用,同时也产生了新的文本图分类的方法。如何在短文本分类中有效地利用全局特征,丰富上下文语义信息成为重点研究问题。本文基于图神经网络的研究基础进行算法改进,主要研究工作以及贡献如下:(1)文本图的构建。我们通过将语料库中的单词作为节点,依据单词之间的共现关系添加边,完成文本图的构建。由于短文本语料特征稀疏,我们还引入外部知识库来丰富节点的信息,从而将文本数据转换为结构图的形式进行文本图分类。(2)扩展短文本语料特征。本文提出了基于图卷积神经网络(GCN)引入外部知识库Word Net对特征同义词进行提取的方法,并通过实验证明了采用知识库扩充特征信息能够有效改善短文本内容精简特征稀疏的问题。(3)基于BERT词向量的图卷积神经网络(GCN)算法的改进。本文提出了BERT+扩充文本+GCN的模型结构,算法思想是融合了外部知识的短文本通过预训练的BERT模型获取含上下文语义信息的特征向量并嵌入到构建的文本图中,使用能够对任意图进行处理的图卷积神经网络(GCN)实现文本转换为文档图的分类。然后通过实验验证了融合外部特征与使用词向量对文本图的节点特征进行扩充,能够有效提升图分类效果。最后与基线模型例如BERT模型和Transformer模型等对比分析,该模型使得短文本分类的准确率更佳,并对文本分类数据进行了可视化展示。(4)基于Bi-LSTM端到端模型的图卷积(GCN)算法的改进。本文提出了Bi-LSTM+扩充文本+GCN的模型结构,算法思想是在扩充文本的基础上利用Bi-LSTM优先考虑单词顺序之间的上下文语义特征结合图卷积神经网络(GCN)对长距离特征的依赖关系进行捕获。然后通过实验证明该模型在短文本分类中比Bi-LSTM和Text GCN等基线模型的准确率更高并且时间复杂度相对较低。最后对该模型的文本分类数据进行了可视化展示。
其他文献
驾驶风格主要指驾驶员的驾驶习惯,多通过驾车时的行为特征进行定义。驾驶风格与智能交通、无人驾驶、保险理赔都有着千丝万缕的联系。针对现今驾驶风格识别研究多存在数据来源不真实、考虑因素不全面、无法对驾驶风格进行整体把握等问题,本文通过采集真实的驾驶数据,以工况作为驾驶风格识别的最小粒度,构建了基于半监督学习的多工况驾驶风格识别模型。主要工作如下:1.搭建驾驶风格识别数据库。通过对日常驾驶风格影响因素的深
蛋白质是生命活动的重要物质基础,也是生命活动的执行者和调控者。少数蛋白质可以在生物体中单独执行特定功能,大部分蛋白质通过与其他蛋白质之间的相互作用以复合物的形式完成其特定功能。因此,精确高效地识别蛋白质复合物对于揭示细胞组织原理和功能机制具有重要意义,且对复杂疾病的诊断与靶向治疗具有一定的指导作用。本文基于生物信息学理论与机器学习算法,对蛋白质相互作用网络中蛋白质复合物的识别问题进行了研究。目前蛋
随着科技的飞速发展,人类生活中越来越离不开身份认证和识别。同时人们对个人信息安全的问题也更加的重视,传统的身份认证如密码登陆等已经很难满足人们对个人信息安全的要求。在这种需求不断提升和计算机技术高速发展的背景下,虹膜识别技术凭借着其更高的安全性、准确性、稳定性、防伪性等特点受到了来自学术界和工程界广泛的关注。虹膜识别产品也逐渐应用到与我们息息相关的生活中,如虹膜门禁系统、虹膜签到系统、银行支付系统
因果关系抽取是自然语言处理的一个重要研究方向,现有研究将因果关系抽取转化为关系分类或序列标注任务。文本中的因果关系有丰富的表达形式,对于句中的复杂因果关系和文章级因果关系,现有方法很难有效的抽取。此外,这些研究大多忽视了对因果实体间的语义关联信息的探索。针对上述问题,本文引入语义依存分析和预训练语言模型,结合深度学习的相关算法,提出了两个因果抽取模型,有效的从文本中抽取各类因果关系。具体内容如下:
随着二十一世纪互联网和信息技术的高速发展,技术论坛成为人们获取计算机专业知识的关键平台。人们通过技术论坛发表自己的原创文章,获取自己喜欢的专业领域内容,同时与业界专家互动交流专业领域问题,从而提高自己的专业技能。技术论坛主要发表大量的技术文章或提问,用户通过回帖来表达自己的观点。以往的论坛大多为综合性论坛,其广度的优点不能对每一个专题做到精益求精,提供了大量的内容却未对其进行有效搜索和推荐,导致用
语文学科教学除了要帮助学生掌握语文知识,还要提高学生的道德修养,提升他们的文化品位,使他们形成健全的人格。在高中语文教学中融入传统文化,能够促进教学任务的完成,带给学生更多启迪。本文将针对如何在高中语文教学中融入传统文化展开具体分析,旨在以文化为载体,提高课堂教学质量,营造良好的育人环境。
目的:椎动脉优势(vertebral artery dominance,VAD)是指双侧VA一侧管径较大或双侧管径相等时一侧VA与BA呈直线形连接的血管变异现象。人群中35.5-58%的人为左侧VAD,右侧VAD为19-35.7%[8,9]。现阶段研究认为VAD可能是PCI的危险因素[10]。与前循环缺血相比,后循环缺血患者发现椎动脉管径不对称的发生率更高,并与基底动脉(Basilar Arter
“逆城市化”是城市发展的一个阶段,准确把握中外“逆城市化”的研究热点及演进趋势,对于“十四五”阶段城市提质增效、乡村全面振兴具有重要意义。文章利用CiteSpace可视化分析软件,对1980-2020年的1 112篇中外文献进行了定量分析。研究结果表明,国外的“逆城市化”多为“单轨”运行制,而中国则为“双轨”并行制。从研究热点来看,国内对“逆城市化”的研究主要围绕城市发展阶段、人口流动、现象的总结
以社交网络为代表的大规模信息网络层出不穷,如何充分利用这些信息挖掘出适应于各种任务的通用表示显得尤为重要。现实生活中的大规模信息网络往往包含许多复杂的交互关系和语义信息,且具有多源异质性,这给传统的网络表示学习(Network Representation Learning)方法带来了挑战。深度学习的出现给网络表示学习开辟了新道路,极大的促进了网络节点表示学习研究的发展。本文基于图注意力机制和生成
智慧司法概念的提出及司法公开平台的建设,促进了司法领域信息化进程的发展。随着以裁判文书为代表的司法大数据不断公开、人工智能技术不断突破,在司法人员处理案件效率的环节,通过人工智能技术有效使用海量数据解决司法问题逐渐成为法律智能研究的热点。目前,在智慧司法方面的研究主要集中于法律判决预测、相似案例匹配、法律问题解答等,争议焦点识别作为司法领域中的一项基础任务,对于庭审质量、审判效率的提高具有重要意义