一种新的维吾尔文文本分类特征选择方法

来源 :河南科技大学学报:自然科学版 | 被引量 : 0次 | 上传用户:pscc33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统卡方统计量方法对特征项的频数和类别分布考虑不足的缺陷,提出了一种结合余弦相似度的卡方统计量特征选择方法。该方法首先使用均值词频-逆文档频率表示特征项,通过引入一个调整公式来平衡类间选取的特征项数,从而对传统卡方统计量方法进行修正,然后结合余弦相似度进一步消除噪声文本。在收集的维吾尔文数据集上进行实验论证。实验结果表明:改进的卡方统计量方法具有较好的鲁棒性,且分类性能优于传统的卡方统计量方法。
其他文献
通过分析弧齿锥齿轮加工原理、机床的结构和运动关系,对普通机械式铣齿机进行了二轴国产数控系统改造。完成了数控系统的可编程控制器PLC的二次开发,通过可编程控制器实现了液
在传统的石膏胶凝材料体系中引入矿粉等具有水硬性的矿物掺合料,形成高耐水石膏复合胶凝材料,改善了传统石膏建材耐水性差、应用范围局限的缺陷;开展高耐水石膏复合胶凝材料
为了探究从新疆发病绵羊中临床分离的单核细胞增多性李斯特菌(简称LM90SB2)srt A基因的特异性及其在原核表达质粒p ET32a中的表达,本研究利用PCR技术扩增LM90SB2的srt A基因,测
对市政排水工程施工技术进行了分析,从市政排水工程施工现状、存在的技术问题以及相关技术问题的解决措施三方面进行了论述,并对提高市政排水工程施工质量的技术措施进行了研
为了研究大肠杆菌、葡萄球菌以及混合菌(大肠杆菌和葡萄球菌)对亚洲飞蝗抗菌肽的诱导效果及其部分理化特性,本试验采用浓度为1×108CFU/m L的大肠杆菌、葡萄球菌、混合菌
为探讨应用IFN-α治疗和未治疗的慢性丙型肝炎患者外周血CD8+T细胞亚群细胞频数及各亚群上Tim-3表达的变化。采用流式细胞术检测IFN-α治疗和未治疗的慢丙肝患者外周血中CD8+
为探讨胃癌差异表达蛋白MAWD和MAWBP对胃癌细胞EMT的影响。采用pc DNA3.1构建MAWD真核表达载体,在胃癌细胞SGC7901中单独和共同过量表达MAWD与MAWBP,采用免疫荧光检测MAWD和M
对15个加工番茄品种进行了田间抗早疫病鉴定,结果表明,供试品种中无抗病品种,耐病品种6个,占40%;感病品种9个,占60%。对加工番茄早疫病菌进行了室内毒力测定和小区药效试验,
根据Gen Bank报道的绵羊肺炎支原体(MO)基因组序列,设计特异性引物,对MO新疆分离株黏附素基因和溶血素A基因进行PCR扩增、克隆及测序;应用分子生物学软件对该基因及其编码蛋白
为了研究Zfx基因在精子发生过程中的作用,本研究利用RNA干扰技术针对猪Zfx基因m RNA设计3条si RNA并构建sh RNA干扰载体(p LL3.7/e、p LL3.7/f、p LL3.7/g)。对体外培养生精细