生物大数据时代高血压数据挖掘分析平台构建研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:killsmagicer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:针对生物大数据时代高血压基础研究面临数据量庞大、类型复杂、数据挖掘困难等问题,提出一种基于生物大数据的高血压数据挖掘分析平台的构建方案。该平台拟整合国际数据库中高血压相关的基因组、转录组、蛋白质组等分子数据,收集国内外高血压前沿科研成果,构建高血压医学组数数字资源库;同时集成主流数据分析方法和软件,打造高血压数据挖掘分析平台,为科研工作者及临床医学研究者提供专业、精准、高效的数据查询检索、数据比对分析及成果可视化展示等服务,满足不同科研工作者的多样化需求,提供一站式的高血压大数据云服务,为高血压精准医学研究提供最可靠的数据支持与保障。
  關键词:生物大数据;高血压云服务;数据挖掘;分析平台构建
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2019)06-0268-02
  1 引言
  生物信息学(Bioinformatics)是伴随着人类基因组计划(Human Genome Project,HGP)而迅猛发展的一门交叉学科,其涉及生物学、统计学及计算机科学等多个学科。生物信息学通过对生物信息数据获取、处理、储存、分析和解释,揭示生物信息数据包含的生物学意义。随着高通量测序技术、生物信息数据挖掘技术的飞速发展,R和Python语言在数据挖掘广泛应用,加之基因组、蛋白组、转录组等海量组学数据指数型增长。同时高通量测序实验技术成熟发展,生物医学实现由单一组学时代向多组学融合时代的跨越。这昭示着我们已经进入生物大数据时代。
  在生物大数据时代,生物医学组学数据主要呈现出数据多元化、增速快、数据结构复杂且标准化程度低、数据分布零散难以整合分析等特点。目前,生物医学研究面临主要问题有:(1)数据碎片化、管理分散、难以实现有效整合分析;(2)数据安全无保障,缺乏交流平台,是世界最大组学数据输出国;(3)数据缺乏标准化机制且管理混乱,质量参差不齐,缺乏同国际交流的平台与窗口,受国际、国内的政策与技术的限制严重。
  高血压作为一种常见的慢性非传染性疾病,是目前我国居民健康的主要威胁之一,也是我国生物医学领域的研究重点和热点。随着生物大数据时代来临,高血压生物医学研究面临新的机遇与挑战。以基因组、转录组、蛋白质组为代表的各种组学蓬勃发展为高血压生物医学研究提供了新的研究方向与研究方法,与此同时,由于组学数据量大增速快、种类繁多结构复杂、数据分散难以共享等特点,使得高血压研究面临严峻挑战。
  本文提出一种高血压大数据分析平台构建方案,该方案借助云存储技术和虚拟化技术构建高血压生物医学大数据资源库,拟解决生物大数据时代高血压医学数据分散、结构复杂、不易存储等问题;借助云计算技术、数据挖掘技术打造高血压数据分析平台,弥补现阶段高血压医疗数据存储分散难以共享不足,为科研和医疗工作者提供专业化的高血压数据共享云服务,为高血压精准医学研究提供精准数据支持和平台支撑。
  2 生物大数据时代高血压大数据分析平台设计
  随着生物大数据时代到来,高血压生物医学数据爆炸式增长,为满足高血压大数据发展需求,弥补传统数据存储模式和数据管理分析技术成本高、部署困难、不易扩容、数据处理速度慢等不足。本文提出一种基于MVC架构的高血压数据挖掘分析平台构建方案,该方案利用MVC架构低耦合的特点实现图形界面和数据挖掘分析组件优势组合,用户通过视图将数据服务请求传递给控制器,控制器根据不同服务请求调用相应模型,模型将封装的数据参数及业务需求传递给数据挖掘分析系统,系统在接收到数据参数后从高血压数据资源库中提取数据,调用数据处理程序进行挖掘分析,最后将数据分析结果通过视图展现给用户。该平台将高血压数据资源和数据挖掘分析组件部署于云服务器,通过负载均衡来策略协调用户对数据挖掘系统的访问,从而提升系统的计算效率,使用户在服务体验、系统的交互性、可靠性等方面相对于传统的数据挖掘平台皆有很大提升。该平台架构图如图1所示。
  1)高血压数据资源库设计实现
  高血压数据资源库是基于云存储技术设计实现的,在不改变现有物理存储设备基础上借助分布式存储技术、虚拟化技术以及计算机网络技术构建虚拟数据云服务,基于PostgreSQL数据库技术构建高血压数据资源库,并采用先进I2B2数据管理方法,实现对高血压数据的有效管理。资源库内的数据主要分为结构胡数据和非结构化数,结构化数据包括:基因组学数据、蛋白质组学数据、转录组数据和表观遗传组数据等分子数据;非结构化数据主要包括:病例数据、科研文献以及其他类型数据。高血压数据资源库结构如图2所示:
  2)高血压数据挖掘分析系统设计实现
  高血压数据挖掘分析系统是整个高血压大数据分析平台的核心与灵魂。数据挖掘分析系统采用模块化设计思想,整个系统分为数据选取、数据预处理,算法模型及可视化四部分,各模块又细分若干子模块,模块之间相互独立,通过统一API访问接口向外提供服务,当用户需求改变时,只需修改相关的模块的业务参数即可,其他模块不受影响。采用这种模块化结构设计模式,能够使系统的扩展性和健壮性大大提高。
  3 数据挖掘平台关键技术
  高血压数据挖掘分析平台构建关键在于平台架构设计和算法实现两个方面,平台设计方案的合理性和健壮性决定了平台系统的稳定性;算法的健壮性和可靠性决定了用户体验。现针对平台建设中涉及的关键技术进行研究,详细内容如下:
  1)云计算技术
  云计算技术是一种借助互联网技术整合大量计算数据与处理器资源并向提供可用的、便捷的、按需的资源访问模式,其具有功能强大、运行成本低、安全性高、可共享等优点,是高血压数据挖掘分析平台的核心技术之一,在平台构建过中,主要运用分布式存储技术、虚拟化技术、并行云计算技术。
  (1)分布式存储技术。该技术借助网络技术优势将分散的、碎片化存储空间构建成一个虚拟的整体,并将数据存储于虚拟空间中。借助此方式可以将碎片化的、零散的物理存储设备构建成虚拟的、高扩容性的存储空间,在此基础上构建高血压数据资源库,适应高血压分子数据增长趋势。   (2)虚拟化技术。该技术可将多台服务器设备有效连接起来构成一个高效的服务资源池,从而优化资源配置,使服务器资源得以最大化利用。运用该技术将高血压数据分析系统多个算法模块分别部署在不同服务器中,保证各个数据分析模块相互独立,互不影响,从而提升高血压数据挖掘分析平台数据处理能力和处理效率。
  2)MVC框架技术
  MVC(Model-View-Controller,模型-视图-控制器),是一种当前主流软件设计模式,该模式将数据、业务逻辑以及前端分割成相互独立三部分,各部分通过控制器实现数据交换、业务传递,细化分解软件开发工作,大大提升软件系统开发效率。采用MVC架构的高血压数据挖掘分析系统具有维护成本低、耦合性低、重用性高等特点。该架构实现了平台中前端展示界面和数据挖掘分析组件的解耦,将两者相互独立,在开发过程中前端工程师不需要关心具体的数据挖掘分析流程;而后台业务流工程师也不必关心展示界面,大大提高了数据挖掘分析平台的开发效率。
  3)分布式并行计算技术
  分布式并行计算技术是将数据分布、任务并行、任务调度等技术细节进行封装,在实际的应用中,用户并不需考虑这些内容,而知识能够在终端操作应用满足自身的需求。利用分布式并行计算技术有利于提高数据挖掘的效率,同时降低企业数据挖掘平台维护的成本。高血压数据挖掘分析平台构建采用分布式并行计算方法协调数据与分析模块关系。当用户使用时只要在终端开启执行数据运算的指令就可以实现数据的操作,它对数据的分析以及任务的并行执行有着推动的作用。
  4 结语
  随着生物大数据时代来临,高血压分子数据呈现爆炸式增长,对高血压数据有效整合与利用可以促进高血压精准医学研究发展,实现数据资源到数据财富转化。本研究依托云计算技术、MVC框架技术、分布式并行计算技术构建高血压数据资源库以及数据挖掘分析平台,服务于广大医疗及科研工作者,满足不同群体不同需求,实现高血压数据资源的共享,高血压研究者提供一个专业化信息交流平台,进一步促进高血压精准医学研究发展,实现更大的经济效益和实用价值。
  参考文献:
  [1] 胡莹石,陈家晨,徐菱.云计算下数据挖掘平台架构及技术探究[J].无线互联科技,2018,15(12).
  [2] 王晓妮,段群.基于MVC模式的数据挖掘平台设计与实现[J].信息与电脑(理论版),2018(15):53-55.
  [3] 王俊,郭丽,吴建盛,汤丽华,等.大数据背景下的生物信息学研究现状[J].南京邮电大学学报(自然科学版),2017,37(04):62-67.
  [4] 张国庆,李亦学,王泽峰,等.生物医学大数据发展的新挑战与趋势[J].中国科学院院刊,2018,33(08):853-860.
  [5] 丁岩,杨庆平,钱煜明.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术,2013,19(01):53-56.
  [6] 樊紅珍.基于云计算的数据挖掘平台架构及其关键技术[J].电子技术与软件工程,2017(05):196.
  [7] 赵友杰,曹涌,熊飞.基于林业大数据的生物信息云平台的构建研究[J].电脑知识与技术,2018,14(01):23-25.
  [8] 李国妮.tranSMART转换医学平台的本地化及其深层次的开发[D].长安大学,2016.
  [9] 陶庆.基于云计算的MVC架构数据挖掘平台的研究与设计[J].集宁师范学院学报,2018,40(03):53-57.
  【通联编辑:代影】
其他文献
摘要:在挖掘海量数据信息的过程中,传统的数据检索方法不再适应海量题库中数据快速增加的趋势,数据信息获取和处理效率较为低下。对网络数据库特定数据信息进行检索能提升数据访问和查询能力,提升数据信息利用率。为此,文章在阐述网络数据库特定数据检索原理的基础上,打造网络数据库特定数据检索体系结构,进行网络数据库特定数据检索模块的设计和仿真实验,旨在有效提升数据库特定数据的检索效率。  关键词:网络数据库;特
休克患者涉及临床各科.发病突然,病情变化迅速.如不及早发现.及时处理,将严重威胁患者生命。本文总结37年来感染性休克66例.创伤性失血性休克34例的护理要点,浅述如下。
在法国,医生是一种自由职业,绝大部分医生工作于自己开设的诊所(cabinet)或小型私立医院(elinique)。除了这些操自由职业的医生外,部分医生作为领薪阶层受雇于公立医院(hopital)
摘要:通过射频磁控溅射ZnO薄膜的方法制备了以ZnO为有源层的薄膜晶体管器件。研究了H2O2处理ZnO薄膜的不同位置对TFT器件的影响。采用PL测试表征材料的缺陷密度,用SEM表征了氧化处理前后的ZnO薄膜材料的表面形貌。结果表明利用H2O2处理ZnO薄膜与源漏电极的接触界面会使器件的关态电流降低2个数量级,氧化处理后的ZnO薄膜具有较低的缺陷密度和较好的结晶状态,TFT器件的电流开关比为7.5×
患儿女,3岁。因全身皮肤瘀点瘀斑一年余于1992年5月21日人院。1991年4月诊断为原发性血小板减少性紫癜(ITP)。用强的松15rag/日长达10多个月,长春新硷lmg/周达8周及达那唑、环磷
摘要:唐山已成为全国环境污染的重灾区,生态环境面临严峻挑战。只有加强信息化环保监测手段,建立良好环保监管机制,政府、企业、公众齐抓共管,才能还唐山蓝天碧水与净土。  关键词:环保;信息化;监测;监管;治理  中图分类号:TP311 文献标识码:A  文章编号:1009-3044(2019)14-0279-02  1 生态环境面临严峻挑战  具有超百年工业历史的唐山,她拥有雄厚的工业基础和工业文
摘要:数字校园平台的建设引入了云计算、虚拟化等先进的技术。形势的变化让技术支撑团队面临“不换思想就得换人,不换技术就得换人”的考验。合理运用正向激励和正确评价工作绩效来调动一部分人的主观能动性,让他们先行动起来,然后带动团队共同进步。团队成员的相互信任,以及对于组织的信任,是激励产生预期效用的基石。人才培养是在日常工作中实现的。职业认证和继续教育都是提升技能水平和改进运维管理策略的有效途径。当团队
摘要:为了解决高等级病原微生物实验室之间的管理和协同工作,国家科技部提出了研究制定高等级病原微生物实验室网络协同系统的任务。该文讲述了网络协同系统的研究目标,系统的设计原则,系统的功能结构,重点阐述了网络协同系统的系统架构。系统架构采用分层设计的方法进行设计,由服务层、应用展现层、应用支持层、数据层、基础设施层组成,同时还包括信息标准规范体系和安全防护体系。该文详细说明论述了总体架构的各个组成层次