中文文本局部特征选择方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:lifeng58
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今互联网的快速发展,各领域都产生了大量的数据,如何充分的利用这些数据,是目前最需解决的问题。在处理文档数据的过程中,常常采用文本自动分类技术,来实现文档数据的量化存储工作,如此分类技术也应当加以改进,其中特征维度的降低显得尤为的重要,通过局部特征选择方法来降低特征空间维度,去除冗余关键词,准确选取能够代表各类别的关键词,对分类器本身的性能进行改进,从而提高文本分类精度。本文针对传统的卡方统计量(CHI)进行特征选择时,仅考虑特征词在该类别是否出现的缺点,提出引入词频权重和负相关修正因子,得到一种新的改进后CHI特征选择方法,记为CHI-NFID特征选择方法,在此基础上,考虑引入共现矩阵,提出一种新的局部特征选择方法,既考虑特征词与类别之间的相关关系,又考虑特征词之间的语义关系,确保文本特征含有尽可能少的冗余信息,从而降低特征向量维度。首先,将改进的卡方特征选择方法与传统的卡方特征选择方法进行对比,进行模拟分类实验。其次,利用XGBoost(梯度提升法)计算关键词在分类过程中的重要度,根据篇词矩阵,得到类词频数矩阵,利用改进后的卡方特征选择方法,计算类词卡方矩阵,选出各个关键词的最大卡方值对应的类别,分别用第i个关键词作为第j类的代表关键词。然后,计算局部词共现强度矩阵,分别设定阀值,进行重要度比较,剔除重要度较低的关键词,降低关键词的冗余度。最后,将每个类别根据不同的局部词共现信息得到的关键词子集求交集,得到每个文献类别最终对应的关键词子集,将所有类别对应的关键词子集合并得到全局上的关键词子集将其作为向量空间的特征变量对数据进行文本表示。本文采用两种数据类型:类均衡文本数据和类不均衡文本数据,分别对这两组实验数据进行局部特征选择,并利用不同的分类算法,得到特征选择前后的数据分类准确度指标,进行对比,其实验结果证明将该局部特征选择方法适用于类均衡和类不均衡两种情况,并应用于文本分类中能取得更优的分类结果。
其他文献
随着对微观世界的探索和发展,电子显微镜在生物、化学和材料等领域有着广泛的应用前景。为探究更小微观尺度下物质的结构与其动态过程,研制具有高空间分辨率与时间分辨率的超
计算机断层成像技术(Computed Tomography,CT)是应用最为广泛的医学成像技术之一。CT算法对图像重建质量有重大影响,所以其一直是CT领域的研究热点。目前商用CT设备的主流重
微粒/细胞的过滤和捕获是单细胞分析和生物医学研究的基础,基于微流控芯片的操纵方法具有试剂消耗量低、样品处理速度快、集成度高体积小和成本低廉的优势而受到广泛的关注。
随着锂离子电池的快速发展,人们对其安全性和稳定性也提出了越来越高的要求。固态聚合物电解质因其较高的电导率、较好的力学性能和稳定的化学性能被广泛研究,但是离子迁移率
黄酮类化合物是重要的多酚类物质而且在植物中分布很广泛,黄芩素(Baicalein,BC)和汉黄芩素(Wogonin,WG)是从黄芩中提取出来的一类重要的黄酮素。这两种天然化合物具有很多值得开
从上世纪八十年代至今,以高光谱遥感成像仪为代表的新型侦察技术迅猛发展,为光学伪装技术带来了极大的挑战。高光谱遥感技术的核心在于利用目标与背景在可见光和近红外(VIS-NI
放大转发(Amplify-and-Forward,AF)和解码转发(Decode-and-Forward,DF)协作无线通信系统的物理层安全是当前无线通信的研究热点,进一步改善其物理层安全性能可采用多入多出(M
随着互联网技术的迅猛发展,在线社交网络平台,如Facebook、新浪微博和腾讯微信等,变得越来越流行。在线社交网络平台为用户提供了一个更加方便、更加快捷和更加隐私的空间,这
急性运动对认知控制的提升主要有两种理论“一般提升理论”和“选择提升理论”。“一般提升理论”认为急性运动能够对包含认知控制和基本信息处理的认知任务表现出同等程度的
伴随物联网时代数字信息的爆炸性增长,急需研究用于数据处理的快速且可扩展的新型存储与计算技术。在新兴的存储技术中,基于电阻切换(RS)现象的阻变存储器(RRAM),由于其简单的金