【摘 要】
:
k-NN是经典的文本分类算法之一,在解决概念漂移问题上尤其具有优势,但其运行速度低下的缺点也非常严重,为此它通常借助特征选择降维方法来避免维度灾难、提高运行效率。但特
【机 构】
:
北京科技大学信息工程学院,国家信息中心,
论文部分内容阅读
k-NN是经典的文本分类算法之一,在解决概念漂移问题上尤其具有优势,但其运行速度低下的缺点也非常严重,为此它通常借助特征选择降维方法来避免维度灾难、提高运行效率。但特征选择又会引起信息丢失等问题,不利于分类系统整体性能的提高。从文本向量的稀疏性特点出发,对传统的k-NN算法进行了诸多优化。优化算法简化了欧氏距离分类模型,大大降低了系统的运算开销,使运行效率有了质的提高。此外,优化算法还舍弃了特征选择预处理过程,从而可以完全避免因特征选择而引起的诸多不利问题,其分类性能也远远超出了普通k-NN。实验显示,优化算法在性能与效率双方面都有非常优秀的表现,它为传统的k-NN算法注入了新的活力,并可以在解决概念漂移等问题上发挥更大的作用。
其他文献
目的:探讨乌鲁木齐市汉族与维吾尔族60~70岁女性骨密度(BMD)及血清中的微量元素的差异。方法:检测汉族、维吾尔族60~70岁女性骨密度及血清中的微量元素,比较两组血清微量元素
经济发展的趋势逐渐深化,企业在进行经营管理中的财务往来逐渐频繁,为了保证企业常态化的经营发展趋势,企业扩张自身的经营方向和广度也是十分有必要的。在此期间值得注意的
辅导员队伍建设在大学生思想教育、人生规划、健康成长等方面发挥重要作用。新时代高校对辅导员身份定位、职责范围、从业要求都提出了新的要求,辅导员应顺应新时代发展要求,
基于目前的流行病学调查,潜伏期1-4天,多为3-7天。以发热、干咳、乏力为主要表现。少数患者伴有鼻塞、流涕、咽痛、肌痛和腹泻等症状。重症患者多在发病一周后出现呼吸困难和
为了解决Portlet应用提供商、门户提供商之间互不协调的问题,JCP组织发布了Portlet规范来提供不同门户和Portlet之间的互操作性。JSR规范中定义的繁杂的编程接口和Portlet运
在铁路多种经营企业快速发展的今天,在巩固原有经营成果的基础上,策应自治区乃至国家的发展需要,不断拓展外部市场,构建新的经营模式,寻求新的经济增长点成为当前面临的重点任务。
主要从综采机械及电气设备着手,吸取目前大采高工作面自动化开采思路,探讨电液控制系统、综采自动化系统、信息技术、传感技术在薄煤层采煤工作面自动割煤、自动移架、远程控
安徽两淮矿区是全国重要的煤炭生产基地,大规模的煤炭资源开采不可避免的造成地表沉陷。通过对两淮采煤沉陷区的现状调查,客观的分析了采煤沉陷引出来的一系列社会危害;介绍
目的:了解雾化吸入治疗喘息性支气管炎小儿患儿的护理措施及其临床价值。方法:2011年-2014年收治应用雾化吸入方案治疗喘息性支气管炎患儿100例,根据护理方案将其分为对照组
目的 探讨高血压病患者合并高尿酸血症与颈动脉粥样硬化的关系。方法 对60例高血压病患者用彩色多普勒进行颈动脉超声检测,根据检测结果分为颈动脉粥样硬化组和正常颈动脉组。