结合语义的特征选择方法

来源 :计算机应用 | 被引量 : 4次 | 上传用户:xinliping
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的基于词频统计的特征选择方法忽略了特征项本身的语义信息,特征项之间存在冗余使得维数有限的特征空间无法容纳更多的对分类有用的特征项。为此,利用《知网》(HowNet)的中英双语知识词典构建"概念—领域"表,对每个词语查询该表,如果在表中,则把该词语映射到"领域";否则保留原词。这样不仅可以将较低层概念泛化到较高层概念,还能在一定程度上消除特征项之间的冗余,而且从语义上加强它对所在"领域"的分类贡献度。分别应用信息增益和χ2统计利用该方法进行文本分类实验,结果表明该方法可以有效地提高分类准确率。
其他文献
投资决策是上市公司的核心财务问题,投资的有效性决定了社会资源配置效率。选取我国上市公司为研究对象,采用可感知内部控制的方法度量上市公司内部控制质量的基础上,检验内
为了实现丝材连续镀金过程中镀金层厚度的可控性,研究了金盐浓度、镀液温度、阴极丝的移动速度对电流效率的影响,采用牛津的X—Sight能谱仪对镀金层断面进行能谱分析和镀金层确
目的:研究人和树鼩肝癌和癌旁组织中PTEN基因的表达情况以及与肝癌侵袭转移的关系。方法:用RT-PCR和免疫组织化学方法分别检测人肝癌、癌旁组织和正常组织以及树鼩肝癌和癌旁组
唐君毅后期对传统中国美学研究的贡献,集中在20世纪60、70年代。在早期和中期奠定的学术基础上,唐君毅考索中国古代审美意识,探讨文学艺术的本性,勘察文学艺术的境界层构,以
目的:探讨胶质细胞源性神经营养因子(glial cell-derived neurotrophic factor,GDNF)表达与人脑胶质细胞瘤恶性程度的关系。方法:应用流式细胞术的方法检测GDNF在人脑胶质瘤组织
<正> 风度,简单地说就是能够取悦于人的美的举止和姿态,它是人在处世中表现出来的包括德、才、体、貌、内心世界等各种因素的有机总和。风度体现社会美。社会美,主要指人格美
目的:探讨子宫内膜间质肉瘤(endometrial stromal sarcoma,ESS)的临床病理及免疫组织化学特点及其在鉴别诊断中的意义。方法:采用HE和免疫组化SP法对20例ESS和10例子宫高度富于细
1895年台湾沦丧以后,丘逢甲的诗便存在着浓烈的遗民情结:一方面,他以传承保台烈士的忠义精神作为自己生命的支撑,并通过对名胜古迹、佳节旧故等事物的描写抒发自己浓重的爱国
局部图像特征在三维重建、模式识别、图像恢复等计算机视觉领域得到了广泛而成功的应用。好的局部图像特征应具有特征检测重复率高、速度快,特征描述对光照、旋转、视点变化等图像变换具有鲁棒性,特征描述符维度低,易于实现快速匹配等特点。从上述三个方面对SIFT、SURF、Daisy等三种当今流行的典型局部图像特征进行了比较,设计了更具一般性的新型比较评价标准。实验结果表明:SIFT具有最好的鲁棒性,SURF在
提出了一种流数据上的频繁项挖掘算法(SW-COUNT)。该算法通过数据采样技术挖掘滑动窗口下的数据流频繁项。给定的误差ε,SW-COUNT可以在O(ε-1)空间复杂度下,检测误差在εn内的数据流频繁项,对每个数据项的平均处理时间为O(1)。大量的实验证明,该算法比其他类似算法具有较好的精度质量以及时间和空间效率。