融合BERT与LDA的在线课程评论关键词提取方法

来源 :现代电子技术 | 被引量 : 0次 | 上传用户:dengsanhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了高效提取高度集中、覆盖范围广和差异性明显的慕课网用户评论关键词,文中提出一种融合BERT和LDA?TextRank的关键词提取方法.实现关键词提取的第一步是获取候选关键词,在获得候选关键词之前需对爬取的课程评语进行预处理,再通过BERT模型训练得到慕课网在线评语的词向量;然后利用LDA主题模型得到候选关键词的主题分布;最后结合TextRank算法计算各主题的关系词及生成评论文本的词主题挖掘.基于此,文中利用BERT文本表示方法,能够更好地联系不同词语之间的相关性;在传统的LDA主题抽取模型的基础上结合TextRank方法,并在节点运算中通过迭代算法计算各词的得分,将权值的转移概率作为词语之间的相似度,使得关键词提取性能得到了提升.实验结果表明,与传统方法相比,所提方法的困惑程度值明显降低,证实了该方法的有效性.
其他文献
针对煤矿井下综采工作面空间狭小、液压支架的传感器数量众多、布线以及维修困难等问题,文中设计一种基于ZigBee与5G无线通信技术的液压支架无线传感器网络系统.首先介绍无线传感器与无线收发器的硬件与软件设计,并研究了ZigBee与5G通信传输数据的方式.然后制作集成液压支架传感器数据的中央控制系统,融合一种适用于液压支架无线传感器网络的分簇式DFD节点故障诊断算法.最后进行测试实验,实验结果表明,文中的无线传感器网络能够将采集的液压支架无线传感器数据传输至无线收发器,通过工作面5G基站传输至井下中央控制系统
针对模块化多电平换流器(MMC)子模块在运行时存在的排序运算量大、功率器件动作频繁等问题,文中提出一种改进的快速排序优化算法来减少控制器的计算量.首先优化快速排序中基准值的选取方法,选取待排数组中均值作为基准值;其次结合直接插入排序,仅对经过快排后的某一数组进行排序,减少待排数据的数量.针对MMC运行过程中存在功率器件动作频繁的问题,设置各桥臂子模块电容电压最大(小)偏差值,对于未越限的电容电压值保持其下一周期投切状态不变,减少功率器件的频繁投切.最后在仿真软件Matlab/Simulink中搭建21电平
针对DenseNet采用ReLU函数在特征传播过程中存在丢失图像的负特征问题,文中提出一种改进的DenseNet方法.首先,为了解决样本数据集少而产生的问题,采用数据增强方法中的图像翻转、旋转和随机裁剪方法来增加数据集;其次,利用Leaky ReLU函数不会丢失图像负特征的特性来代替ReLU函数,在反向传播时增加传播的负特征,并采用迁移学习的基于微调网络的技术进行训练从而防止过拟合.迁移学习是运用神经网络在大型数据集ImageNet上训练好的参数权重在小数据集上进行网络训练,再把原神经网络的全连接层改为小