MicroRNA识别中的若干关键技术研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:eeee_188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
microRNA(miRNA)是近年来才发现的一类内源性小分子非编码RNA,对miRNA的研究已成为当前生物信息学领域最热门的课题之一。研究表明miRNA在动植物的许多生物过程中发挥着重要的调控作用,同时与人类疾病的产生和发展紧密关联。准确识别miRNA并研究miRNA与疾病的关联,对理解基因表达调控网络、诊断及治疗人类疾病、推动药物研发等具有重要意义。  本文介绍了miRNA识别中涉及的生物学概念、机器学习算法、相关数据库等,重点研究了miRNA识别算法和疾病相关miRNA预测算法。论文就当前miRNA研究中存在的特征选择不合理、信息使用不充分、数据类别不平衡等问题提出了相应的解决方案。本文的主要研究内容如下:  (1)针对目前miRNA识别研究中敏感性和特异性指标不佳或两者不平衡的问题,提出一种基于特征聚类和随机子空间的miRNA识别方法。该算法采用信息增益率剔除部分弱分类能力特征后,利用信息熵度量特征间的相关性并对特征聚类,聚类过程中从每个特征簇中随机选取一定比例的特征组成特征集。通过参数调优后选择最优特征集构建分类模型识别miRNA。实验结果表明,该算法取得了较好的识别效果,同时在敏感性和特异性的平衡方面表现优异。  (2)针对疾病-miRNA关联研究中信息使用不充分导致预测效果不佳的情况,提出一种基于综合相似性的疾病相关miRNA预测方法。该算法分别从疾病语义和疾病表型角度结合疾病-miRNA关联信息构建独立的miRNA功能相似性网络,在两个网络上分别应用随机游走模型,最后通得分函数融合两个网络的输出。与经典方法在18种疾病上实验对比表明,该算法具有一定的优势。  (3)进一步研究miRNA识别中存在的类别不平衡现象,提出一种基于混合采样的不平衡数据分类方法。该算法首先通过Borderline-SMOTE方法对少数类样本过采样,在此过程中对多数类的边界降采样并用NCL方法对邻域进行清理,最后对剩余多数类样本采用K-means算法聚类选取代表性样本,由此构建平衡训练集。实验表明该算法可以很好地解决miRNA识别中类别不平衡问题。
其他文献
为实现分布式协作开发环境下工具间的数据共享,应当提供一致的数据访问服务。数据格式转换工作,在集成平台中被封装为数据对象转换服务,使得不同工具产生的数据均能表现为符
本论文是以“辽宁省信息产业厅嵌入式网上智能教学平台”项目为背景的。教学平台中有大量的音、视频信息,并且这些资源在地理上是分布的、异构的,它们由多级网络互联,形成一
用于彩色图象跨设备再现的色彩管理技术目前已基本成熟。但随着彩色信息在网络环境下的广泛应用和重视,用户对色彩管理提出了新的要求,即在网络环境下仍能很好地满足用户的色
生物特征识别是一项利用人类特有的生理或行为特征来进行身份识别的技术,它提供了一种高可靠性、高稳定性的身份鉴别途径。人脸识别技术是基于生物特征识别技术的一个重要分支
异构网络并存是目前网络的现状,多样异构网络融合则是大势所趋。随着IP网络的迅速发展,在各种网络相互融合的基础上,以软交换技术为基础,在统一的分组网络上提供话音、数据和多媒
为了快速高效地建立分布式协作开发环境,满足我国当前在军事和经济领域的迫切需要,集成现有工具和组件而不是开发全新的协作环境是切实有效的解决方案。业务流程执行语言(Bus
随着VLSI技术的进步和电路复杂度的不断提高,基于平台的SoC设计技术逐渐成为国际学术界的研究热点之一。在基于平台的SoC设计中,平台、IP映射和系统集成是其中最重要和最耗时的
随着信息技术的发展,很多单位都建立了内部网络,内部网络提高了用户的工作效率,使信息的传递变的更加快捷,但是内网信息的安全问题也随之而来,来自内网外部的威胁被广泛关注,
GIS数据库中含有海量、复杂的数据和信息,其中隐含着许多有价值的知识,而传统的GIS系统主要局限于实现数据的录入、查询、统计等功能,无法有效地发现数据中存在的关系和规则,
随着全球电力技术的高速发展,高压直流输电技术(HVDC)的出现并迅速普及,高压直流输电中换流阀的控制技术成为高压直流输电的核心技术之一。本论文的工作是设计与制作基于英飞凌16位单片机的高压直流输电阀控制系统的硬件电路。论文在研究了英飞凌微处理器结构和C167CR的存储器组织、中断、并行IO口,CAN控制器特点的基础上,利用芯片硬件资源与相关器件实现了阀控制系统的硬件电路。论文分析研究了高压直流输电