改进词向量和kNN的中文文本分类算法

来源 :现代电子技术 | 被引量 : 0次 | 上传用户:GISSeven
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为提高中文文本分类的效率和准确率,针对汉字象形字的特点和数据量剧增的大数据背景,建立基于深度学习的中文文本分类算法.首先根据汉字子字符(字形、偏旁、笔画等)象形字即形状自带含义的特点,建立基于子字符和上下文特征的双通道CBOW模型实现中文文本向量化;其次基于大数据的背景,针对传统的kNN算法分类速度慢的缺点,提出一种基于LSC聚类和多目标数据筛选的快速kNN分类算法;最后运用快速kNN算法对文本数据转化的特征词向量数据进行分类.实验结果表明,改进后的中文文本分类算法增加了算法的使用范围,能够更精确地处理中文文本数据,更快地处理大数据问题,在分类速率和效果上都有一定程度的提升.
其他文献
移动边缘计算(MEC)作为一种新的范式受到了各界的关注,但时延敏感、能耗巨大,MEC的局限性也日益凸显,为了解决上述问题,提出一种可由能量收集技术获取能源进行供能的边缘计算系统模型.首先,将时延、能耗和任务丢弃率作为指标,建立执行代价模型;然后引入能量收集技术模拟用户能量收集过程;最后针对模型时域耦合问题,利用带扰动Lyapunov理论将问题转化为逐时隙定性问题,并基于改进的灰狼算法对CPU频率和发射功率进行迭代以获取最小的任务执行代价.实验结果表明,改进的灰狼算法与其他算法相比,其任务执行代价更小,用户
手势分为静态手势和动态手势,针对动态手势中手势轨迹不明显、短期时空特征得不到有效提取和利用,提出一种基于darknet(darknet53)算法融合时序卷积网络(TCN)的双流网络3D-darknet用于识别视频中的动态手势.该方法在3D-CNN的基础上将具有强大图像特征提取能力的darknet网络与短期时空特征提取的TCN网络结合,采用自适应的权重融合策略将短期时空特征和长期时间特征融合后得到对视频手势的识别,并在Jester数据集上对网络模型进行验证.实验结果表明,该网络结构对特定轨迹特征不明显的手势
双端固支梁平板电容结构广泛应用于微机械电容式传感器中,传感器的量程与平板电容的吸合有关,因此精确快速地求解电容极板下拉电压非常重要.文中针对微梁结构在静电驱动下存在的结构-静电耦合场问题,比较了典型耦合场分析方法的优缺点,根据双端固支梁平板电容动力学原理,推导了临界下拉电压的近似解析解;并利用基于边界元和有限元的计算机仿真方法验证了解析结果的有效性.鉴于有限元方法的复杂性和效率低下问题,提出一种基于MAST语言的集总参数模型的仿真分析方法.结果表明,文中所提方法与有限元和边界元方法的分析结果接近,但显著减
当前的目标跟踪算法主流是基于检测的跟踪(DBT),所以检测的质量对跟踪的性能影响很大,同时在跟踪过程中易受环境干扰、光照变化、目标尺度和类别的影响,针对以上目标跟踪存在的问题,提出一种联合深度学习神经网络YOLOv4检测算法和Kalman滤波的目标跟踪算法.首先利用目标检测器对目标进行分类和边界框提取,跟踪器用于在跟踪轨迹中收集候选数据;其次,提出一种对象选择器,用来选择检测和跟踪轨迹中的最优候选框;最后,将最优候选框和跟踪轨迹利用ReID进行数据关联判断是否对跟踪轨迹进行更新.实验结果表明,联合检测的目
针对传统粒子滤波算法在跟踪目标所处环境迁移,目标姿态变化和发生遮挡时容易出现跟踪框漂移现象,提出一种基于灰狼算法优化的粒子滤波跟踪方法(GWOPF).首先,将全局特征HSV颜色特征和局部特征方向梯度直方图(HOG)特征加权融合建立观测模型;然后,用灰狼算法(GWO)优化粒子滤波算法结构,利用GWO位置更新机制改善粒子空间分布状况,在粒子重采样前进行权值自适应调节,解决原始粒子滤波方法采样时出现的粒子退化问题并优化滤波效果.实验结果表明,改进后的算法在具有挑战的Tiger和Girl视频序列中跟踪成功率分别达
内河河道水面的浮萍是造成水环境恶劣的一个重要原因.文中设计了一个内河河道监视与浮萍识别系统,通过在河岸架设摄像头对河道状况进行实时采集监测.从采集到的自然河道图像中高效提取出河道线,进而准确检测、识别浮萍.通过HED神经网络实现了适用于野外河道图像的河道线提取;基于Mask-RCNN网络实现了浮萍的检测,并做到了预处理、识别与后处理一体化.实验结果显示:以交叉比作为评价标准,在样本容量为97的测试集上达到了93.8%的准确率,相比传统算法提高了30.6%;单张河道图片边缘提取速率达到了0.275 s,能够
针对高分辨率遥感图像在目标检测中存在准确率低、目标漏检的问题,提出一种基于改进Faster R?CNN的遥感目标检测算法.采用ResNet?50作为主体网络进行特征提取,降低模型参数量和硬件资源占用,将ResNet?50的多尺度特征进行融合,进一步丰富中小目标的细节信息和位置信息.根据遥感目标尺寸的实际分布特点,采用K?means算法生成聚类中心,针对遥感目标尺度差异过大的问题,对聚类中心进行均值化操作,生成自适应锚点框参数,增强了区域建议网络(RPN)对多尺度目标的搜索能力,节约了人工根据经验设置锚点框
针对乳腺肿瘤的诊断率及精准度较低的情况,提出一种基于改进的矢量量化(LVQ)神经网络乳腺肿瘤诊断算法.首先,基于LVQ1算法和LVQ2算法在网络训练过程中更新神经元数目的不同,建立结合LVQ1算法和LVQ2算法的复合LVQ神经网络;然后,考虑到不同的竞争层节点数对LVQ神经网络诊断率的影响,采用K交叉验证法确定复合LVQ最佳网络结构;最后,探讨了不变的学习率在网络训练后期对收敛速度的影响,采用自适应速率算法调整学习率,减少迭代次数.以Wisconsin Breast Cancer Database为实验样
为了满足半导体激光器(LD)对电流源高稳定性、低噪声的性能要求,文中基于负反馈原理设计一种可调节低噪声恒流源电路.该电路使用带隙基准电压源AD780BN提供低噪声、低温漂的基准电压,配合多路复用器ADG1606的选择功能,由低噪声运放LT1677构成的负反馈恒流驱动电路通过JFET将电压转换成电流,经过JFET和BJT构成的调整网络输出稳定的电流,实现了稳定的多电流输出.实际电路测试结果表明:该恒流源电路在3.8~5.5 V的输入电压范围内,输出电流稳定度在0.007%~0.029%之间;在电流调控模块控
回环检测是视觉SLAM中的一个重要模块,成功检测出回环能够有效减少环境地图生成过程中的累积误差.针对传统方法主要利用人工设计特征,具有对光照变化非常敏感等问题,将深度学习算法运用于回环检测中,提出一种基于卷积神经网络的回环检测算法.利用预训练的卷积神经网络模型VGG16提取图像卷积特征,选取网络末端的池化层作为图像的全局特征表示,并通过感知哈希算法判断特征相似性,验证回环.从准确性和运算时间上在New college数据集上评估该算法的性能.实验结果表明,相对于传统算法,提出的算法有着更高的准确度和速率,