基于本体的基因组变异数据语义查询方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:shade89
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类DNA测序技术的发展和千人基因组等大型测序计划的推进,生物医学数据呈现爆炸式增长趋势,出现海量的基因组变异数据,其数据量现已达到TB级别甚至是PB级别。大规模的基因组变异数据为生物医学研究提供了数据基础,但是同时也在大数据的存储、处理和分析上带来了挑战。传统数据库在处理小规模数据时具有一定的优势,难以适用于TB级别以上基因组变异数据的存储与查询处理。当前,因HBase具有动态可拓展存储的特性,以及Spark高效并行处理数据的优势,HBase和Spark在大规模数据处理领域中,引起了学术界和工业界的广泛关注。因此面对不断增长的海量基因组变异数据,如何对其进行高效的可拓展存储管理及查询分析,进而发现基因组变异数据中蕴含生物医学的知识和规律,是当前研究的难点问题。鉴于疾病相似度可用于直观地、定量地衡量疾病间的相关性,疾病相似度评估方法以及结合疾病相似度的语义查询方法成为了当前的研究热点。为了有效地衡量新发现的或目前医学研究中遗传信息较少的疾病间的相似度,本文提出了基于规则的疾病本体相似度计算方法,综合考虑疾病关联的基因、表型对相似度衡量的影响,实验证明该方法在ROC评分下取得良好的性能。为了在正负例高度不平衡的数据集上可以有效发现相似的疾病对,本文提出了基于深度神经网络的疾病相似度计算方法,利用深度神经网络挖掘疾病对间的规律信息。该方法在ROC和PRC评分下取得良好的效果。本文提出了基于Spark和HBase的基因组变异数据存储和查询方法,构建了基于Lucene非主键索引机制与查询优化方法,利用本文已提出的疾病本体相似度计算方法,构建疾病相似度网络,并基于此疾病相似度网络,提出了面向海量基因组变异数据的语义查询方法。实验结果表明,相比于传统数据库的存储和查询处理方法,本文提出的存储和查询方法在大规模基因组变异数据上表现出明显的优势。
其他文献
目的探讨酶联免疫吸附试验(ELISA)梅毒筛查联合甲苯胺红不加热血清试验[TRUST]在梅毒检测、诊断和治疗中的临床应用价值。方法应用ELISA法和TRUST法对6961份标本进行梅毒筛查,
生活质量(qualityoflife,QOL)又译作生命质量、生存质量,它是在世界卫生组织提倡的健康新概念“人们在躯体上、精神上及社会生活中处于一种完好的状态,而不仅仅是没有患病和衰弱”
大家看到这张图片一定不陌生吧?这就是Windows自带的音量控制器.它似乎能满足音量调控的一般要求.可是如果我们需要对电脑中播出音乐的音量进行精细的调控时,就会发现这音量
对重庆市最近5年来未成年人犯罪状况的调查研究发现,未成年人犯罪有不断上升的趋势,呈现出涉及案件种类多、犯罪人年龄小、社会危害大的特点。导致未成年人犯罪的原因主要是
确定性是笛卡儿认识论哲学所追求的目标,笛卡儿通过"我思"主体的确立,建构起一套通达确定性的方法。直观、演绎与通观既是笛卡儿对主体认识能力的形而上学设定,同时也是追求
为生产出高标准的配合煤,适应现代工艺对设备性能的要求,对配煤系统锤式破碎机的内部结构进行了改进.
近年来,随着交通量的持续增长,越来越多的早期桥梁出现了提早破损、开裂、表层混凝土剥落等现象,桥梁的提早破损不仅影响了桥梁的美观,也造成了重大的经济损失。如何修复这些
下岗人员是目前湖北省人数最多、困难最大、最为典型的弱势群体,他们在医疗、住房、养老、就业等方面均面临着严峻的困难。建议政府从社会保险、教育、住房、法律援助以及政府
目的探讨情景模拟在社区护理程序教学中的效果。方法通过设计情景教学环境、设计情景教学内容,对2007级护生进行情景模拟教学,传授护理程序在社区护理中具体应用的技能知识。结
“宝贝儿,再吃一点儿吧……”妈妈们又乞求着自己的“小皇帝”了。如今的青少年大多都有挑食的坏毛病,不是不喜欢吃这个,就是不喜欢吃那个,把一些最有营养的东西都白白浪费掉
期刊