多特征融合的中文短文本分类模型

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:leongiggs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对中文短文本的特征提取中存在特征稀疏的局限性,本文提出了一种基于多特征融合的短文本分类模型(Multi-fea-ture fusion model,MFFM).首先,通过字词向量结合的方式构建新的文本表示;其次,通过BILSTM(Bi-directional Long Short-Term Memory)、CNN(Convolutional Neural Networks)和CAPSNET(Capsule Network)模型对短文本进行不同层面的特征提取,并使用Self-attention模型动态调节各模型特征在最终特征构建中的权重系数.在实验部分,本文用MFFM方法与四个短文本分类经典模型(CNN、BILSTM、CAPSNET和CNN-BILSTM)在三个中文短文本数据集上进行验证,为了进一步验证数据融合(将三个中文短文本数据正负样本融合)对MFFM的影响,实验结果表明MFFM模型性能在四个评价指标(F1、Recall、Preci-sion、Accuracy)下优于对比模型.总之,这可表明MFFM是短文本分类模型的一个有用框架.
其他文献
推荐系统旨在解决项目的信息爆炸问题并为用户提供个性化推荐.通常,用户交互的历史项目对于用户交互的下一个项目是有着不同的影响的.为此,本文提出一种序列感知深度网络(Seq
目的 探讨2009年北京市甲型H1N1流感发病的地理区域相关性和聚集性,为今后传染病发病的空间自相关性分析提供参考依据.方法 利用OpenGeoDa 1.0.1软件进行空间全局和局部自相关性分析,呈现2009年甲型H1N1流感空间聚集区域.结果 2009年北京市甲型H1N1流感发病分布不是随机的,呈现显著的空间聚集,即高发病区与高发病区邻接,低发病区与低发病区邻接,表现出一定的空间自相关性.全局空
为系统鉴定黄淮海地区大豆种质资源对大豆疫霉根腐病的抗性,本研究采用改进的黄化苗下胚轴接种方法,利用8个大豆疫霉根腐病菌株对2017和2018年从黄淮海地区各育种单位收集的3
对MapReduce和Spark两种框架下的大数据极限学习机进行了比较研究.具体地,从程序运行时间、任务的同步次数、分类器的泛化性能和需要读写的文件数目4个方面进行了比较.得出了
常见词嵌入学习可以理解为是在分解词的点互信息值矩阵,主题一致性评价方法也使用了词的点互信息,二者存在紧密的联系,但是现今还缺少深入分析主题一致性评价标准和词嵌入之
概率主题模型与词向量模型的结合已经成为主题分类研究的一大热点,本文基于该思想提出了一种适用于网页主题分类的Skip-PTM模型.Skip-PTM模型吸取了LDA主题模型的优势,扩展了
针对矩阵分解推荐算法存在的数据稀疏和不能反映用户兴趣变化的问题,提出一种融合用户点评数据、用户-物品评分数据、物品异构信息和遗忘曲线的改进型矩阵分解推荐算法.首先,
为明确脂肪含量在高脂肪高产大豆品种东生79系谱中的传递规律,本研究分析东生79选育过程及系谱,追溯其祖先亲本对东生79细胞质及细胞核基因的贡献值.结果 表明:东生79的细胞