使用K近邻算法诊断乳腺癌

来源 :大东方 | 被引量 : 0次 | 上传用户:Northbay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着信息技术的不断发展,医疗大数据的概念也逐渐被人类所熟知。通过对数据挖掘技术在乳腺癌各领域的研究现状(乳腺癌基因研究、乳腺癌早期辅助检查、力学药物靶点识别、乳腺癌新中医治疗方法)的分析,展望数据挖掘技术应用于乳腺癌领域的前景,为数据挖掘技术在乳腺癌疾病的研究提供新思路。
  关键词:数据挖掘;乳腺癌
  一、前言
  乳腺癌已成为当前社会的重大公共卫生问题。全球乳腺癌发病率自20世纪70年代末开始一直呈上升趋势。美国8名妇女一生中就会有1人患乳腺癌。中国不是乳腺癌的高发国家,但不宜乐观,近年我国乳腺癌发病率的增长速度却高出高发国家1~2个百分点。
  二、数据源
  我们将使用来自UCI的乳腺癌诊断数据集,该乳腺癌数据包括569例乳腺细胞活检样本,每个样本包含32个变量。其中id变量是样本识别ID,diagnosis变量是目标变量(M代表恶性,B代表良性)。其他30个变量都是由10个数字化细胞核的10个不同特征的均值、标准差和最大值构成。这10个基本特征为:
  三、数据探索和预处理
  .3.1  数据的探索
  首先,搜集数据集如下图所示,由于数量问题,只显示其中部分,共计569个样本,32个变量。
  将整个数据集导入SPSS软件中。
  第一个变量为ID,无法为实际的模型构建提供有用的信息,所以需要将其删除。diagnosis变量是我们的目标变量,我们首先统计一下其取值分布。观察在我们的数据集中,恶性(M)和良性样本(B)的分布情况。在正式建模之前需要将其进行整数编码,将良性(B)编码为0,将恶性(M)编码为1。
  通过统计我们的569个样本中,良性样本(B)和陰性样本分别有212个,占比分别为62.7%和37.3%。其中作为示例,我们主要选取所有变量中的三个:radius_mean,area_mean和smoothness_mean。
  通过SPSS软件生成图形对三个变量进行分析:观察这三个变量的统计信息,发现它们的取值范围不大一致。radius_mean取值范围为6.981~28.110,area_mean取值范围为143.5~2501.0,smoothness_mean取值范围为0.05263~0.16340。不同变量的测量尺度不一致会影响K近邻算法中的样本距离计算。例如,如果上述三个变量直接参与距离计算,则area_mean变量将会对距离计算影响最大,从而会导致我们构建的分类模型过分依赖于area_mean变量。在应用K近邻等涉及距离计算的算法构建预测模型之前,需要对变量取值进行标准化。常见的标准化方法有min-max标准化和Z-score标准化等。
  3.2数据的标准化:
  为了将自变量进行min-max标准化,使用min_max_normalize函数。该函数输入为数值型向量x,对于x中的每一个取值,减去x的最小值,再除以x中数值的取值范围。结果如下可见所有的变量都已经正确地标准化到0和1之间:
  四、模型性能提升
  4.1 测试不同k取值对模型效果的影响
  我们将分别测试 k = 1,5,9,11时模型的效果。由于模型整体预测准确率已经很高。我们通过观察假阴性(False Negative)和假阳性(False Positive)的数目和正确率(Accuracy)来对比不同k取值下模型的效果。
  可见,当 k = 5 时,假阳性数量最少,且假阴性数量仅为1,正确率达到最高。当然,这也只是在171个测试样本上的结果。
  参考文献
  [1]MOURADC,LOPEZMA G.An evaluation of imagedescriptors combined with clinical data for breast cancer diagnosis [J].Intemational Joumal of computer Assisted Radiology and Surgery,2013,8(4):561-57.
  [2]张旭东,孙圣力,王洪超.基于数据挖掘的触诊成像乳腺癌智能诊断模型和方法[J].大数据,2019,5(01):68-76.
  [3]侯公楷.中医药防治乳腺癌进展[J].辽宁中医药大学学报,2016,18(05):249-253.
  (作者单位:河北大学 生命科学学院)
其他文献
摘 要:本文从档案科学化管理的角度,分析事业单位档案管理工作的主要问题,围绕着科学化管理工作的主要特色,总结事业单位档案管理科学化改革的基本措施,从而全面提高事业单位档案管理的质量水平.  关键词:事业单位;科学化;档案管理  档案是国家的宝贵财富,是社会各项事业的基础保障。新时期事业单位档案管理科学化管理应当从档案管理的现实需要出发,强化保护管理,确保档案科学化管理水平不断提升。着力构建完善的档
期刊
摘 要:我国近年来整体经济建设发展非常迅速,使我国快速进入现代化发展阶段。在医院发展过程中,人事档案管理在医院整体工作当中占据非常重要的地位,能够为医院各方面的工作提供较为全面的信息支持。人事档案就是在一段时间内,可以对档案拥有者进行更加全面和系统的了解,根据所掌握的人事档案内容,可以对相关工作人员进行工作的分配和相关的职称评定。  关键词:数字信息化;医院人事档案管理  引言  时代的发展,科技
期刊
随着时代的发展进步,社会信息化建设飞速猛进。过去传统被动的的档案管理服务模式己经不适应如今的形势要求,如今信息化建没已经成为档案建设的重要环节,在当今社会发展进程承担着举足轻重的作用。鉴于我国信息化建设工作处于发展的起始阶段,各单位普遍意识到档案信息化管理的重要性,着手开始档案信息化建设,由于基础薄弱,起步较晚,缺少人才支撑、技术保障,设备武装,所以仍面临着许多问题亟待解决。  1 档案管理工作现
期刊
摘 要:在现代建筑中,给排水设计是基础设计的重要组成部分,对保证建筑的实用性起着重要作用。建筑给排水设计首先对建筑的整体结构有较大的影响,而且对城市资源的利用也有较大的影响。实践中表明,对建筑给排水设计过程中引入环保节能理念,不仅可以优化建筑整体结构,同时也大大提高了建筑资源的回收利用效率。因此,实施环保节能理念在建筑给排水中的应用,对建筑设计和提高建筑资源利用效率具有重要意义。  关键词:环保节
期刊
摘 要:近年来,随着我国经济的快速发展,对建筑行业的要求也在不断的加强。建筑工程的施工中土建属于重要的一项工程施工项目。而土建由于自身的施工特点也会使用到多项施工技术,这些技术中以混凝土施工技术最为常见。因此就需要保证土建工程建设中的混凝土施工技术的使用为整个土建工程的施工奠定良好的基础。本文主要针对的是我国当前土建工程项目中的混凝土施工技术重要性进行分析,从而阐述混凝土施工技术的具体措施。  关
期刊
摘 要:本文综述了平潭人的来源及其性格。  关键词:平潭学;平潭人;来源;性格  广东省惠州市惠阳区东北部也有个镇叫“平潭”。本文所论的是,福建省福州市下辖的平潭县,简称“岚”,俗称海坛。位于福建省东南部,与台湾隔台湾海峡相望,是中国大陆距离台湾岛最近的地方,主岛海坛岛也是著名的渔业基地。平潭县与平潭综合实验区实行“政区合一”(行政区和实验区)的管理体制。  平潭学是一门以平潭地域为特征、以历史文
期刊
摘 要:现代城市建设中园林工程正在变得越来越重要。本文探讨了园林施工管理存在的问题,然后就如何提升园林工程施工与养护质量提出了一些对策和建议。  关键词:园林施工;养护管理;对策与建议  1 风景园林施工存在问题分析  1.1 管理制度不完善  目前,基于可持续发展原则指导,城市建设规划实践在风景园林方面愈加重视起来,保证城市发展和生态建设的协调统一发展。从总体分析,很多地区因为欠缺统一健全的管理
期刊
摘 要:针对本单位实验室的独立伺服四点弯曲梁试验仪进行了拓展功能程序的开发,以物联网的思想实现独立伺服四点弯曲梁试验仪远程监控和记录试验数据的功能。应用C#、.Net、SQL语言编制程序将独立试验仪与云端、手机终端连接起来,解决了大量试验数据自动存储问题及实现试验过程中人员远程监控接收数据信息的需求,为高校实验室物联网实现提供可行参考。  关键词:四点弯曲梁试验仪;物联网;云平台;远程监控  一、
期刊
摘 要:随着国家的复兴,很多领域都开始迅速发展,在大力发展中消耗了大量的资源,也破坏了大量的环境,如今生态环境不得不引起我们的重视。之前的发展消耗了大量的树木,导致有些地方出现泥石流、滑坡等现象,这些灾难只有在保证林场的良好发展情况下才会被解决,因此,林场的建设是预防各类灾难及保护生态环境的重要一个环节,同时国家正在迅速发展,倘若只是简单的顺其自然,很大程度上是无法满足国家的建设需要,这就要求林场
期刊
摘 要:现当今,我国经济在快速发展,机电一体化技术越来越受到关注。机电一体化技术是一种新型的电子操控技术,它可将机械、微电子、自动控制等技术进行软件编程处理,统一整合这些技术,应用到大规模集成电路上,通過计算机对机械操作进行辅助操作,使得机械设计方案与控制得到全方面的优化,提高了运行效率,降低管理成本。  关键词:机械设计制造;机电一体化技术;应用  引言  随着我们国家科学技术的不断发展,工业技
期刊