基于大数据挖掘技术的文本分类研究

来源 :现代电子技术 | 被引量 : 0次 | 上传用户:successyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本数据具有规模大、特征维数高等特点,当前文本分类方法无法刻画文本变化特点,使得文本分类正确率低、误差大、分类时间长,为了获得理想的文本分类效果,设计基于大数据挖掘技术的文本分类方法。首先对当前文本分类的研究进展进行分析,找出导致当前文本分类效果差的原因;然后,提取文本分类原始特征,并引入核主成分分析算法对原始特征进行处理,降低特征维数,简化文本分类器的结构;最后,采用大数据挖掘技术构建文本分类器,并与其他文本分类方法进行对比测试。测试结果表明,所提方法可以更好地描述文本变化特点,能够对各种类型文本进行准
其他文献
传统的图像信息处理系统存在着载体图像恢复性能差的缺陷,为了解决上述问题,提出基于可逆信息隐藏算法的图像信息处理系统。系统硬件设计包括主控芯片选型、并行处理结构设计
在高校毕业就业情况分析的过程中,由于数据量过于庞大,原有分析方法的分析结果精度较差。因而,文中提出基于大数据分析技术的高校毕业就业分析方法。采用大数据网络设定数据
江南的花事是一朝胜过一朝。春花烂漫的烟花三月已逝,阴雨绵绵的梅雨季节静静而来。雨雾横斜清风漫卷里.栀子花像一朵朵小白鸽不知又从何处飞来,一夜间全都兀自歇憩在这一片绿意
当今时代,传播在经济社会发展中、在国际竞争中的作用日益突出。为了更好地提高国际传播能力、争夺国际话语权,美俄为首的大国不断布局完善国家的战略传播体系。而在国家战略
他不是什么大老板,却在一年中拿出43万元投入环保公益广告,落款一律5个字——"农民陈法庆"。这个奇人面对坎坷和非议,环保之路上倾尽家资志犹酣。
针对传统三维振镜激光扫描系统数学模型没有校正系统中存在的固有误差,导致扫描结果偏差较大,文中构建一种新的三维振镜激光扫描系统数学模型。分析三维振镜激光扫描系统工作原理,以此为依据构建三维振镜激光扫描系统的数学模型。为提升数学模型控制系统工作时的精度,分别采用速度与精度交换的方法和基于最小二乘法获取角度误差的方法校正系统中的测距误差和角度误差。实验结果表明,所构建模型仿真结果与计算结果间的误差低于1
《网友世界》18期《揭开Windows XP的“真面目”》给大家介绍了如何鉴别Windows XP是否是正版的.今天笔者再给大家介绍下正版的Windows 2003和破解版的Windows 2003之间的差异
针对传统舞蹈动作步态轮廓识别方法识别率不高的问题,提出一种基于AVI视频的舞蹈动作步态轮廓动态识别方法。首先,提取AVI视频中的舞蹈步态轮廓目标,随机定格选取AVI视频中含有舞蹈动作的某帧,使用图像块标记矩阵计算选取的舞蹈动作,判断选取的视频图像是否为前景区,使用Camshift算法计算得到轮廓目标;然后,划分舞者的轮廓为11个步态轮廓点,建立轮廓步态周期计算公式,对舞蹈动作步态轮廓进行跟踪,采用
由于技术、经济、现场条件等多种因素的影响,清洁能源的实际应用往往受到一定限制,在同一个项目上,单一清洁能源的应用往往达不到理想效果,有时甚至满足不了负荷要求。将多种
内分泌与脂代谢异常密切相关。脂毒性能影响各个内分泌器官的功能异常,导致糖尿病、脂肪肝、代谢综合征等内分泌代谢性疾病,干预脂毒性已成为防治上述疾病的重要策略。内分泌