文本挖掘中的特征选择方法研究

来源 :内蒙古民族大学 | 被引量 : 0次 | 上传用户:usernameing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪是信息时代,万维网上出现了海量的文本资源。对于互联网用户来说面对如此海量的文本信息,出现了拥有海量信息但知识相对贫乏的现象,人们从互联网海量的信息中获取对自己有用的知识变得相对困难,因此将互联网上的文本信息按照内容分门别类是一个迫切需要解决的问题也是互联网发展的必由之路。自从文本分类由美国学者H.P.Luhn教授在1957年第一次被提出来,现今文本分类已经成为数据挖掘领域非常重要的一个分支,它已经在搜索引擎等领域有较好的应用。文本分类中特征选择是降低特征空间维数提高分类算法精度的重要过程。所以寻找优秀的特征选择方法对特征空间进行降维,当前已是一个非常有实际价值的研究课题。下面是本文所做的主要工作:  1、本文首先研讨了选题的现实意义,研究了构成文本分类流程中各个环节的要素,分析了传统文本分类的特征选择方法,在介绍粗糙集基本理论的基础上,把粗糙集应用到特征选择中,分析这样做的优点,并且介绍了目前常见基于粗糙集理论的特征选择方法。  2、在文本分类中特征的权重体现了特征对于文本重要性。因此,好的特征权重计算算法也就显得非常重要,本文在分析了前人的特征权重计算算法的基础上提出了基于粗糙集和特征位置重要度的特征权重计算算法。  3、在分析前人属性约简的基础上,利用多粒度粗糙集的相关概念给出了一种新的多知识粒度概念,利用它构造了一种新的粒度函数,将此粒度函数运用到属性重要度的计算中,基于此针对决策信息系统建立了一种新的启发式属性约简算法。  4、经过分析把变精度粗糙集引入到KNN分类器中,将变精度粗糙集的核、负域和边界域作为衡量训练样本集的类内、类外和类边界的指标;然后对处于类内、外和边界区域的待分类样本,在判断其类别时区别对待,这样就可以有效降低训练样本集的规模,提高分类的效率和精度;最后本文对类别函数进行了改进,使得类别函数更能体现待分类样本的类别。  最后,把这些算法应用到模拟实验中,验证了这些算法在文本分类中有较高的召回率、准确率和F1值。
其他文献
自英国科学家罗素于1834年发现孤立波以来,经过科学家们一百多年的不懈研究与探索,成功地在粒子物理、激光物理等很多领域中都发现了孤立波。目前,孤立波已经在数学,生物,化学等多
针对生活中发现塑料水杯变瘪的情况,进行探究,实验,得出推理。
传统密码学的安全基于敌手不能获知密钥和系统内部状态的任何信息,但是边信道攻击表明,这种假设在现实中难以实现.在边信道攻击中,敌手利用密码算法运行时的物理特性,如电磁辐射、
This paper proposes a 256×256 time-of-flight(TOF) image sensor based on the center-tap(CT)demodulation pixel structure. The image sensor can capture both the t
小到日常生活,大到企业生产、乃至国家建设,这些方方面面的运转是需要物质基础的,因此,物质原材料的加工生产是必不可少的。在原材料加工方面,曲线曲面造型是一个非常有用的课题,因
本文首先简要地介绍了分数阶微积分的发展史及其研究课题,并引入了算子分数阶微积分的定义,将其应用于分数阶微分方程,建立分数阶微积分方程模型,在其他文献材料的启发下,用不动点
  本文分别在Hilbert和Banach空间中研究了多种形式的变分不等式组和变分包含组问题, 利用投影算子和预解算子等方法讨论了它们解的存在性,给出了相应的迭代算法,并进行了
由冯康教授首创,并由其本人及余德浩教授等发展起来的自然边界归化理论在各种边界归化理论中独树一帜,它与有限元、辛几何算法一起构成了冯康教授的三大学术贡献.自然边界元法,
本文通过对荣华二采区10
无线传感器网络是由大量随机部署在监测区域的体积微小、成本低廉、具有感知、数据处理和通信功能的传感器节点,通过无线连接,相互协作形成的无线自组织网络,简称WSN(Wireless S