结合优化的文档频和PA的特征选择方法

来源 :计算机应用研究 | 被引量 : 3次 | 上传用户:sxyzx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征空间的高维特点限制了分类算法的选择,影响了分类器的设计和准确度,降低了分类器的泛化能力,从而出现分类器过拟合的现象,因此需要进行特征选择以避免维数灾难。首先简单分析了几种经典特征选择方法,总结了它们的不足;然后给出了一个优化的文档频方法,并用它过滤掉一些词条以降低文本矩阵的稀疏性;最后应用模式聚合(PA)理论建立文本集的向量空间模型,从分类贡献的角度强化词条的作用,消减原词条矩阵中包含的冗余模式,从而有效地降低了向量空间的维数,提高了文本分类的精度和速度。实验结果表明此种综合性特征选择方法效果良好。
其他文献
2010年9月中下旬在四川省峨眉县峨眉山(29.5°N,103.3°E)西南麓进行了挥网采集,获得蠓类2亚科10属11种,其中有2个新种:峨眉裸蠓(Atrichopogon emeiensis Deng,Liao et Yu sp.no
为探讨致死型约氏疟原虫(Plasmodium yoelii 17XL)感染抵抗型DBA/2小鼠的脾巨噬细胞发挥吞噬功能的作用机制,本试验利用Giemsa薄血膜染色,光学显微镜计数红细胞感染率,观察巨噬细胞
本文记述了采自额尔齐斯河(中国段)河鲈Perca fluviatilis Linnaeus鳃上的1种锚首虫科、锚首虫亚科、锚首虫属的鲈锚钩吸虫Ancyrocephalus percae Eegens,1966.所获标本与Eegen
随着地理信息系统(GIS)理论的产生发展以及方法和技术的成熟,其在血吸虫病防治和研究中的应用也逐步深入。本文就GIS在血吸虫病领域的应用进行综述。
本文以核基因组的功能蛋白丙酮酸∶NADP^+氧化还原酶(pyruvate∶NADP^+ oxidoreductase,PNO)编码基因作为研究对象,对本实验室分离保存的隐孢子虫虫株进行扩增测序,用ClustalX 1.
为评价日本血吸虫感染者血清中特异性IgG4的诊断和疗效价值,本研究以SEA为抗原,胶体金.抗人IgG4单抗结合物为检测标记物,以金标免疫渗滤法(DIGFA)检测急性和慢性血吸虫病患者治疗前
福建的媒介生物和宿主动物种类丰富,存在许多虫媒病的自然疫源地或流行区。在进行海峡西岸经济区建设的同时,应密切关注虫媒传染病及其传播媒介,加强监测和检疫,以保障海峡西岸经
为了解疟疾媒介对DDT和溴氰菊酯抗药性,为制定防制策略提供科学依据。采用WHO成蚊滤纸接触法,以区分剂量判定抗性级别,以半数致死量确定抗性程度。结果显示湖北京山、安陆、孝昌
在数据中心网络(DCN)中,为了实现BCube拓扑与基于环的应用的对接,利用互连网络与组合数学的知识,研究了在BCube中嵌入环(ring)结构的问题,提出了基于最小异维环组和递归化的算法。该算法找到了BCube(n,k)(n为偶数且k≥1)(简记为B(even,k≥1))中的Hamilton圈,能保证嵌入图的膨胀率是1;而且在BCube中的switch发生故障时,相对其他环嵌入算法,嵌入的膨胀率
为了了解贵州省普定县杨柳村村民土源性蠕虫感染现况,采用改良加藤厚涂片法对该村常住人口进行肠道寄生蠕虫的调查。共调查了924人,总感染率为57%(527/924)。其中蛔虫、钩虫和鞭虫