【摘 要】
:
网络技术与信息科学技术的飞速发展,产生了大量可以被挖掘的文本信息。而常见的分类算法往往对应着较高的计算复杂度,而且对有噪音的、有冗余的语料数据不能产生很好的分类效果
论文部分内容阅读
网络技术与信息科学技术的飞速发展,产生了大量可以被挖掘的文本信息。而常见的分类算法往往对应着较高的计算复杂度,而且对有噪音的、有冗余的语料数据不能产生很好的分类效果。使用文本降维的方法不仅可以提升计算方面的速度,而且可以提高分类器的后续分类的效果,因此对文本进行一定的降维是有一定意义的。论文主要是对因子分析算法进行研究及实现,并提出改进因子旋转阈值的控制方法。因子分析作为一种较常见的用于统计分析的降维方法,目前已经受到了数据挖掘方面研究人员的重视,产生了许多改进的方法。该方法是基于矩阵的协方差进行转换,使用矩阵正交进行旋转,从而产生信息的压缩。本文还研究了常见的文本降维方法,讨论了中文文本分类的关键技术,包括了构建向量空间的基础、权重的计算、分类的方法等,还对中文文本的特点进行了分析,详细描述了基于文本降维的分类算法的实现过程。最后用分类对比实验对因子分析算法的各方面性能进行了评估,并给出了实验结果的分析。分类对比实验结果表明:进行因子旋转阈值的控制提高了分类的效果,而对于不同的分类算法,基于KNN的因子分析法进行分类的提升效果更明显,而基于SVM的因子分析法也有一定的提高效果,对于更稀疏的有噪音的矩阵,因子分析法更能提高分类的效果。
其他文献
采用硫酸与氯化钠的混合溶液浸出铜阳极泥卡尔多炉分银渣。结果表明,铋、锑被浸出进入溶液,铅转化为硫酸铅留在浸出渣中,从而实现铅与锑、铋的分离。在硫酸浓度2.5mol/L、氯
作为资金密集型企业,机械装备制造企业在日常经营运作中会面临各种资金风险,由于单位产品所需投资较多,资金运转周期长,因此机械制造企业普遍面临着比较严重的资金困境。供应链融
目的:目前尿量与肾功能下降速率之间的关系仍存在争议。本回顾性研究旨在探讨尿量对免疫球蛋白A肾病(immunoglobin A nephropathy,Ig AN)患者肾功能下降速率的影响。方法:本研究共纳入了376例Ig AN患者。我们分析了基线尿量与其临床特点的关系,并比较不同基线尿量组患者其估计肾小球滤过率(estimated glomerular filtration rate,e GFR)
经济的全球化在促进跨国、跨行业、跨企业间的合作与发展的同时,也加剧了全球化的市场竞争。我国制造业试图通过大力推进制造业信息化,以信息化带动工业化来提高制造业的整体
当前,环境的严重污染不仅阻碍了我们个人的生活,同时也威胁着全人类的生存。近年来我国水污染事件的发生频率高、影响恶劣、后果严重使人们用“北方有水皆枯,南方有水皆污”来形
当今时代,以国际互联网普及应用为标志的信息化浪潮席卷全球,迅速地改变着人类社会的生产、生活和思维方式,也改变着人们的教育和学习方式。如何以网络为纽带快速、高效、方便
该系统以ATMEL公司的ATmage2560微控制器为主控制器(主机),由信号处理电路、通讯接口电路、外设(键盘、显示器等)配置接口电路等构成:以宏晶公司的STC12C2502AD微控制器为辅控
企业是一个国家经济生活的细胞,而中小企业是社会经济生活中最活跃的企业群体,是国民经济发展中的重要推动力量,在创造社会财富、推动技术进步方面都起到了举足轻重的作用。根据
作为中国国民经济的一种重要载体,县域经济当前在经济总量中的比重越来越大,也不断成为城镇化发展重点,实现城乡一体化的重要形式。发展与壮大县域经济对中国小康社会的建设具有
在这个信息技术和软件工程高速发展的时代,与各领域相关的信息化研究和应用逐渐成为热点,特别是面向对象的软件需求工程技术、新的软件系统体系结构技术以及网络通信技术。当今