【摘 要】
:
运用计算手段对蛋白质功能进行分类预测是当前生物信息学的研究热点之一,本文针对包含蛋白质功能信息的两大载体:蛋白质序列和生物医学文献,运用机器学习和自然语言处理技术
【出 处】
:
中国科学院研究生院(上海生命科学研究院)
论文部分内容阅读
运用计算手段对蛋白质功能进行分类预测是当前生物信息学的研究热点之一,本文针对包含蛋白质功能信息的两大载体:蛋白质序列和生物医学文献,运用机器学习和自然语言处理技术进行挖掘分析。在蛋白质序列分析方面,采用了经典氨基酸组成、基于氨基酸组成的氨基酸序列物理化学组成与分布法和蛋白质功能域组成法三种不同的蛋白质序列描述方法。应用最近邻算法、支持向量机、极大似然估计以及期望最大化算法等机器学习算法,我们分别尝试研究蛋白质四级结构分类、DNA/RNA结合蛋白质预测以及蛋白质功能分类问题,获得了较满意的分类预测准确率。蛋白质序列分析的结果显示蛋白质功能域组成是蛋白质序列信息非常高效的描述符,表明功能域在蛋白质功能行使中发挥着重要作用。据此,我们在MEDLINE的摘要数据库中运用自然语言处理技术挖掘关于蛋白质功能域相互作用的信息,加上从其它实验室得到的数据,一共搜集到175条功能域与功能域相互作用的信息和355条功能域与其它生物分子相互作用的信息。在此基础上,我们整合了Pfam、Swiss-Prot、InterPro、GO、DIP、KEGG等其它数据库与功能域相关的信息,构建了蛋白质功能域相互作用数据库(Database of Domain Interactions and Bindings,DDIB)。用户可以通过地址http://www.ddib.org访问查询。
其他文献
边界局域模(ELM)控制是ITER及未来磁约束聚变堆安全运行必须解决的一个关键问题。大量实验研究已经证实外加磁扰动能可靠地控制ELM。相比于外加高环向模数(n)磁扰动,低n磁扰
背景:糖尿病(Diabetes mellitus,DM)患者最常见的并发症之一糖尿病肾病(Diabetic nephropathy,DN),尤其是2型DN,是导致慢性肾功能衰竭的主要原因之一。肾小球内细胞肥大和细
既有住宅改造是一个关乎国计民生的大课题,也是矛盾和问题的集中点。本文聚焦于问题最多的卫生间的改造,通过设计与实践找出一种可操作、可复制的不降板同层排水技术模块,运
春秋战国时期,各诸侯国之间征伐不断,给下层百姓生活带来了巨大的灾害。墨子作为小生产劳动者的代表之一,感受深切,并对当时的社会乱象和当权者的昏庸无能深感痛恨。为了改变这种
<正>毛蚶人工育苗经十多年的发展,在产卵孵化及幼体培育方面较不稳定,有很多育苗场家想搞育苗,但用未经消毒的海水育苗,种贝不能正常产卵,或虽然能产卵,但幼体多出现下沉死亡
目的:1.探究酸性环境对人椎间盘髓核细胞凋亡的影响。2.探究人椎间盘髓核细胞中是否存在OGR1亚家族受体,酸性环境是否能激活人椎间盘髓核细胞中的OGR1亚家族受体。3.探究酸性
<正>河南省盆景艺术家吴德军先生1987年毕业于河南省师范大学(现河南大学)美术系油画专业,其油画作品被多家画廊和众多个人收藏。或许艺术都是相通的,美术专业科班出身的吴德
教育为民生之基。教育机会及教育程度决定着每一个人的生存和发展机会及生活质量。作为家庭最重要的投资之一,孩子的教育牵动着亿万家庭的心。近年在教育体制改革不断推进的过
随着“万物互联”时代的到来,各领域对于无线通信的需求越来越迫切。尽管传统的蜂窝无线通信技术已经迈入了 5G时代,无线局域网技术也经过了大量的技术革新,无线多跳网络技术
变电站综合自动化系统的GPS时钟是事故分析的重要因素。本文对大理电网GPS时钟同步系统组成及应用情况进行了介绍,并结合应用中存在问题提出了运行维护建议。