基于混合卷积的文本分类算法研究

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:cnanjr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类作为自然语言处理中最为基础的任务,文本分类的粒度决定了下游任务如智能问答、关系抽取完成的质量。文本分类的实际应用场景包括搜索引擎中的网页分类、电商平台的商品分类、短视频平台的视频分类等。目前基于深度学习的文本分类方法能够自动提取非线性的文本特征而取得较高的分类精度,已经成为了主流的方法。其中卷积神经网络(Convolutional Neural Networks,CNN)作为局部最优的经典网络,擅长对短文本进行分类,但是CNN存在着长距离依赖的问题而不能有效处理较长文本。基于图卷积神经网络(Graph Convolutional Networks,GCN)的方法利用图对整个语料库进行聚合来获取文本的全局特征,从而解决了其他卷积网络在长文本分类上性能不佳的问题;然而GCN在短文本分类中表现一般,这是因为在构建文本图时短文本贡献的节点和边过少,不利于信息在图中传递,进而使网络不能从较短文本中获取有效的特征。因此一些高性能的语言模型(Bidirectional Encoder Representation from Transformers,BERT)和混合卷积模型被提出来提高长短文本分类效果,这些模型却又存在着结构复杂、计算量大的问题。针对现有研究中单一卷积模型文本特征表示能力有限,高性能混合模型网络结构复杂的问题,本文的主要研究内容如下:(1)针对单一卷积模型如GCN和CNN的特征表示能力有限的问题,本文对如何构建能同时提取文本的全局和局部有效特征的文本分类模型展开研究,提出了一种基于层级注意力的混合卷积网络文本分类模型。该模型并列组合一维卷积层和图卷积层成为并列混合卷积单元(Parallel Hybrid Convolution unit),PHC中融合了从一维卷积中得到的包含语义信息的局部文本特征和来自图卷积的全局文本特征,在此基础上还引入了层级注意力和图节点重要性评价方法来加强PHC的特征提取能力。与最新基于图神经网络和词嵌入的主流方法相比,该方法在长文本数据集Ohsumed和短文本数据集MR上取得了约3%的准确率提升,在长短混合的文本数据集R8和R52上也取得了约1%的准确率提升,证明了该方法能够同时有效对长短文本进行分类。(2)针对现有混合模型结构复杂、计算开销大的问题,本文对如何构建分类性能高、时间空间复杂度低的文本分类模型进行研究,提出了一种基于简化Boosting的混合卷积网络文本分类方法。该方法使用分层学习的思想,串行组合一维卷积层和图卷积层为串行混合卷积单元(Serial Hybrid Convolution unit),SHC中图卷积作为浅层网络获取文本的全局特征,一维卷积作为深层网络获取局部特征,并提出了简化的Boosting算法(simplified-Boosting)来解决网络层数加深带来的计算量大和训练时间长的问题。该方法与最新基于图神经网络的方法相比,在长文本数据集Ohsumed取得了2%的提升,在短文本数据集MR上取得了约8%的提升,在长短在长短混合的文本数据集R8和R52上取得约2%的提升;与高性能混合网络VGCN-BERT相比,该方法的分类准确率提升了约1%,网络层数减少一半,参数量和时间开销减少约10倍。
其他文献
中华传统文化是中华民族的精神源头,通过对部分幼儿园的中华传统文化教育开展情况进行调研,分析中华传统文化教育目前存在的多重困境,文中结合中华传统文化在学前教育中的价值和意义,总结解决学前教育中传承中华传统文化的路径,为学前教育教学改革提供参考和借鉴。
通过顶空固相微萃取结合气相色谱-质谱联用采集挥发性成分指纹图谱,采用极端梯度提升算法建立回归模型,运用极端随机森林的变量重要性评估、sklearn特征选择模块中的单变量线性回归测试(F_regression)以及连续目标变量的互信息(mutual_info_regression)确定有效建模变量,对白酒的贮存时间进行鉴别。模型的R2评估结果为0.987,预测模型可靠性较好,为白酒酒龄的判断提供了新
随着人工智能技术的进步,自动驾驶汽车的智能化水平不断提高,给现有的侵权责任体系带来巨大的挑战。一方面侵权法需保持其救济受害人损害的功能价值;另一方面亦需考虑社会效果上不能阻碍技术的发展。自动驾驶汽车给产品责任制度和机动车交通事故责任制度带来巨大的挑战,但解释和变通现有规则才是确定自动驾驶汽车侵权责任的最佳路径。
主要研究了不同纤维素醚(CMC-Na与CMC-Li)同CTAB作为多壁碳纳米管与石墨烯混合导电材料分散剂对导电材料分散性与稳定性差异,及以对应分散后的导电浆料与针叶木浆混合抄造成的导电纸电阻率、撕裂强度、拉毛强度及透气度在内的纸张性能影响。通过测试对比得出,CMC-Li在导电浆料分散性与稳定性,及导电纸撕裂强度与拉毛强度表现最优,而在导电纸电阻率与透气度表现同CMC-Na相当,但所有指标表现均优于
指向学校课程建设的评价在评价目的上摒弃“唯结果”导向,评价内容和标准注重理论引领与基层实践有机结合,评价过程鼓励多元主体对话、协商和理解。指向学校课程建设的评价面临多重挑战,即被动式评价开展频繁、规范性评价相对缺失、专业性评价较为匮乏。指向学校课程建设评价的优化策略包括明确课程评价的方向与制度保障、构建课程建设评价闭环、积极引入第三方评价。
边疆文化安全作为边疆安全的短板和弱项,是新形势下构建国家总体安全不可忽视的关键一环。全球化背景下文化的跨地域、跨民族流动在促进文化繁荣发展的同时,也引发了关于文化安全的担忧。文化安全既反映了全球化视域下的国家安全的新维度,也凸显出边疆安全的新形态。边疆作为多民族、多文化的大熔炉,是处于多元经济、文化交流和碰撞的“中间地带”,既存在内部文化认同的张力,也面临着外部多元异质文化的冲击等多重挑战,属于“
华东地区作为我国人口最密集、经济最发达的地区之一,研究该区域的高山背景点(黄山)大气PM2.5中的分子组成与来源具有重要的意义。本研究首次在黄山山脚处利用高时间分辨率的测量方法观测气溶胶中无机组分的来源和组成,分别于2019年夏季(7月27日至8月3日)和冬季(1月6日至17日)在黄山山脚采集了PM2.5滤膜样品。利用离子色谱仪(Dionex-Aquion和Dionex-600)和能量色散X射线荧
数字经济的飞速发展,为实现乡村产业的专业化、融合化、信息化、集约化发展赋予了巨大能量,有助于乡村产业革新、效率提高和结构优化。通过强化乡村基础设施建设、加快数字化转型速度、以电商为抓手推动产业数字化转型、加强数字化人才培养、健全相关法律与规定等有效策略,来优化乡村地区数字技术的运用环境、提高乡村产业信息化水平、提供人才支撑、完善数字化转型的环境,将数字经济在振兴乡村产业中积极能效发挥到最大。
为快速鉴别不同香型的白酒,以3种香型(浓香、酱香、小曲清香)白酒的24个酒样为研究对象,采用气相色谱-四极杆飞行时间质谱(GC-QTOF MS)法检测其40种挥发性风味物质含量。对结果进行Z-score标准化后,结合层次聚类分析(HCA)、主成分分析(PCA)及偏最小二乘法-判别分析(PLS-DA)3种化学计量法,对酒样香型进行鉴别。结果表明,不同香型白酒间挥发性风味物质含量差异明显,且3种化学计