论文部分内容阅读
心脏病严重危害着人类健康,是生命的主要杀手。近年来我国心脏病的发病率和死亡率呈现爆发式增长。研究表明非编码RNA在多种心脏疾病中发挥着重要的调控作用。随着研究不断深入,与心脏疾病相关的非编码RNA数据也日益增多。目前这类数据主要分散在文献和多个数据库中,亟待整合与分类并构建相应的数据库,以便研究者使用这些数据,为其研究工作提供参考。鉴于此,本文利用文本挖掘及多种生物信息学方法,挖掘非编码RNA与心脏疾病两者之间的联系并构建了相应的心脏疾病相关非编码RNA数据库。
构建数据库的数据来源主要包括:(1)利用关键词进行PubMed文献搜索和筛选,得到的1904篇相关文献;(2)3个生物信息数据库:人类微小RNA及疾病数据库(HMDD)、微小RNA与疾病数据库(miR2disease)和长链非编码RNA与疾病数据库(lncRNAdisease);(3)5套心脏组织的RNA-Seq高通量测序数据。通过对1904篇文献进行人工甄选、3个数据库中的心脏疾病与非编码RNA关系的提取和5套高通量数据进行重注释和预测分析,最终得到了涉及6个物种的2304条心脏疾病-非编码RNA(HD-ncRNA)相关关系。为了进一步衡量这些关系的可靠性,我们对2304个HD-ncRNA关系进行分级:来源于文献、HMDD、miR2disease及lncRNAdisease且由实验证据支撑的HD-ncRNA关系,被定义为“直接证据”;来源于lncRNAdisease及高通量数据集仅由高通量方法证明的HD-ncRNA关系,被定义为“高通量支撑关系”;通过对高通量数据进行分析和预测得到的潜在HD-ncRNA关系,被定义为“预测关系”。
心脏疾病相关非编码数据包含丰富的功能:(1)浏览和搜索查询功能;(2)部分非编码RNA基因组定位可视化;(3)lncRNA临近基因注释;(4)与其他权威数据库相互链接。数据库具有友好的使用界面,为心脏病相关非编码RNA的研究提供一个方便实用的工具。使用者可以通过http://hdncrna.cardiacdev.com访问数据库。
构建数据库的数据来源主要包括:(1)利用关键词进行PubMed文献搜索和筛选,得到的1904篇相关文献;(2)3个生物信息数据库:人类微小RNA及疾病数据库(HMDD)、微小RNA与疾病数据库(miR2disease)和长链非编码RNA与疾病数据库(lncRNAdisease);(3)5套心脏组织的RNA-Seq高通量测序数据。通过对1904篇文献进行人工甄选、3个数据库中的心脏疾病与非编码RNA关系的提取和5套高通量数据进行重注释和预测分析,最终得到了涉及6个物种的2304条心脏疾病-非编码RNA(HD-ncRNA)相关关系。为了进一步衡量这些关系的可靠性,我们对2304个HD-ncRNA关系进行分级:来源于文献、HMDD、miR2disease及lncRNAdisease且由实验证据支撑的HD-ncRNA关系,被定义为“直接证据”;来源于lncRNAdisease及高通量数据集仅由高通量方法证明的HD-ncRNA关系,被定义为“高通量支撑关系”;通过对高通量数据进行分析和预测得到的潜在HD-ncRNA关系,被定义为“预测关系”。
心脏疾病相关非编码数据包含丰富的功能:(1)浏览和搜索查询功能;(2)部分非编码RNA基因组定位可视化;(3)lncRNA临近基因注释;(4)与其他权威数据库相互链接。数据库具有友好的使用界面,为心脏病相关非编码RNA的研究提供一个方便实用的工具。使用者可以通过http://hdncrna.cardiacdev.com访问数据库。