不平衡数据分类研究及其应用

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:HongJuZhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统机器学习算法对于不平衡数据少数类的分类精度较低的问题。分析了造成该问题的原因,进而提出一种欠抽样数据处理方法,提高少数类分类精度。该方法通过k-means算法对样本进行多次聚类,删除多数类的噪声以及多数类与少数类重叠度较高的样本。同时引入删除因子A,降低多数类丢失特性的风险。通过对UCI数据集的实验分析,经该方法处理,分类算法对少数类的召回率和F值均有提高,证明该方法能有效提高少数类的分类精度。最后将方法应用于预测肺癌患者的术后预期寿命,患者一年期死亡率的召回率和F值分别提高42%和23%。
其他文献
翻开2006年度天津市“五一”劳动奖章、“五一”劳动奖状获得者的荣誉册,武清区规划和国土资源局驻行政许可中心窗口的名字跃然纸上。作为一个负责全区规划国土管理的重要职能
韩伟光,女,53岁,中共党员,经济师,现任中韩合资天津三延精密机械有限公司副总经理。具体的负责公司的管理工作。
在刚刚过去的春节假期我去了印度,首站就到了菩提伽耶,目的是去看那棵著名的菩提树。2500年前释迦牟尼在经过数年的苦修之后来到一棵菩提树下静坐悟道,49天后顿悟成佛,这棵树
【正】1986年,《统计》月刊将进一步贯彻为各级统计工作者、特别是基层统计工作者服务,以普及为主、兼顾提高的方针,在现有基础上作如下的改进:
物料管理在生产过程中有着举足轻重的作用,管理的好坏直接影响企业的利润。在管理过程中,把精益化的思想渗透到物料管理,通过优化和改善,使企业节约成本,提高产品品质,提高生
【正】我是68届初中毕业生,文化基础差,数学底子尤其薄,学习统计理论有一定的困难。但是“基础差”并非不可逾越的障碍,只要知难而进,坚持不懈,这个困难还是可以克服的。最近
【正】在吉林省人民政府领导下,吉林省统计局已经开始《吉林省统计志》的编纂工作.从已搜集到的资料看,1949年10月前吉林省统计
提出了一种事件驱动型嵌入式软件设计框架,抽象并实现了嵌入式软件程序中包括基于优先级的任务调度、基于消息队列的任务间通信、发行一订阅服务、共享资源访问和系统定时器服
(1950年一1)一注;①1949年一1。②1982年数。贸料来源。苏联中央绞计局编。从欲字看苏睬.1983午。,一些国家工业产值的增长速度
【正】为了适应现代化建设的需要,进一步搞好综合平衡统计,为有计划按比例高速度地发展国民经济提供资料,国家统计局于去年十二月份召开了全国综合统计会议.