基于机器学习的植物兼职蛋白预测模型的研究

来源 :安徽农业大学 | 被引量 : 0次 | 上传用户:yin_guohan163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
后基因组与大数据时代的发展,也伴随着生物学数据库中序列数量的快速增长。从序列出发,分析蕴含在蛋白质与基因中的规律,逐渐成为生物信息学的研究热点。兼职蛋白质是指能够执行两种或两种以上功能的蛋白质,传统发现兼职蛋白大多是通过生物实验的方法,具有偶然性、耗时、耗力等缺点,机器学习的方法能够提高预测兼职蛋白的效率。现有的兼职蛋白质数据库及预测工具主要致力于动物和微生物物种,但是动物和植物的细胞存在较大差异,这可能会导致现有的工具预测植物兼职蛋白质不准确。因此,本研究构建了用于植物兼职蛋白质研究的标准数据集和一个致力于植物物种的兼职蛋白预测模型。主要完成的工作如下:(1)基于语义相似度分析的植物蛋白数据集整合。从公共数据库中整理出152条由实验确定的植物兼职蛋白数据,作为正样本。通过搜索7个植物物种类别,整理了60万条植物蛋白数据,依据GO功能注释,并使用语义相似度分析的方法,筛选出306条植物非兼职蛋白数据,作为负样本。再对这些数据进行降低冗余的处理。最终构建了用于植物兼职蛋白研究的正、负样本分别为138条和245条的标准数据集。(2)植物蛋白的特征提取和预处理。为了获得更适合植物蛋白研究的特征,本研究提取了16种基于蛋白质序列的特征类。经过特征选择、归一化、降维等预处理,再分别初步建模。根据模型性能的比较结果,最终选择出最适合植物蛋白研究的特征类,三肽成分。(3)基于多种机器学习的预测模型的研究。本研究使用了生物信息学常用的五种机器学习方法构建模型,并且使用了网格调参法、五折交叉验证等方法优化其性能。将性能最优的支持向量机方法用于构建植物兼职蛋白预测工具Ident PMP(Identification of Plant Moonlighting Proteins)。在独立测试集上的实验结果显示,Ident PMP的AUPRC和AUC的值分别为0.43和0.66,比目前最先进的非植物特异性预测工具的性能,分别高出了19.44%和10.00%。这进一步证明了一个标准数据集和一个植物特异性预测工具对于植物兼职蛋白的研究是有价值的。(4)植物兼职蛋白预测系统的设计与实现。为了让Ident PMP更便于用户使用,本研究实现了该工具的网页版,用户可以通过该网站,实现在线的预测植物兼职蛋白,并下载植物蛋白数据集和该工具的本地运行版软件包。Ident PMP是首次尝试构建一个致力于植物的兼职蛋白预测工具,期待该系统可以更好的服务于植物科学界和蛋白质组学的研究工作。
其他文献
随着高通量技术的快速发展,产生了越来越多较为可靠的生物资源信息,通过结合生物大数据对蛋白质相互作用网络的结构、节点的连接模式等进行全面的分析,已经成为生物信息学领域的研究热点之一。尤其是利用PPI网络预测蛋白质复合物或功能模块,对深入分析细胞环境中蛋白质在不同时空领域中参与的功能机制具有基础性作用,同时对人类探索药物研发新模式具有重要意义。目前,许多用于寻找复杂网络中社区结构的图聚类算法被应用于蛋
SSR(Simple Sequence Repeats,简单重复序列)作为一种DNA分子标记,在生物的基因性状表达、种群遗传多样性等研究领域具有重要作用。近年来随着高通量测序技术的发展,已有大量的物种分别完成了基因组或转录组测序,在这些序列数据基础上使用SSR位点识别程序并结合引物设计工具进行标记开发,进而构建分子标记数据库已成为生物信息学相关领域的重要研究内容。本文将植物多态性SSR数据库构建中
农村初中教育教学中面临着许多困难和问题,如教育条件较差、教学设施陈旧、教学观念落后、生源质量较差等,导致教师教学难度增大,尤其是数学课堂表现更为明显,教师常常会感到在激发学生数学学习兴趣和提高课堂教学效率方面力不从心,达不到预期效果。本文主要对农村初中课堂现状以及教学低效的原因进行了分析,旨在构建高效的数学课堂,提升学生的综合素养。
数据维度的复杂性给农业生产数据分析带来了挑战。无线传感器网络的应用场景正在稳步扩大,已经覆盖了多个应用领域。传感器制造技术的进步有效降低了部件的生产成本和缩小了设备体积,这为传感器的大规模应用提供了可靠支撑。然而,无线传感器网络的部署和运行仍然面临着不少挑战,主要表现在传感器节点续航能力、存储和数据处理能力有限,以及有时采集到的数据质量有待提高。本文研究了无线传感器网络中的数据异常检测问题,探索一
随着电子商务的兴起,各式各样的电商网购平台也不断涌现,使得越来越多的消费者的购物方式由线下转为线上。线上购物方式因其购物流程的便捷性、电商平台与商品的丰富性而受到消费者的青睐,但面对各色各样的电商平台和平台中的海量商品,消费者很难做出抉择。为解决上述问题,本文首先对电商评论文本进行层次情感分析,在此基础上,结合对电商平台的不同维度的指标的分析结果,实现了多维度综合的电商推荐系统,为消费者提供了电商
生猪集约化养殖存在着通风差、空间小和管理水平有限等问题,导致生猪经常发病且各种习性难以观查,且管理费时、耗力,如何监测并快速判断生猪习性和可能出现的疾病成了目前亟需解决的问题。生猪的叫声包含丰富的生物学信息,对生猪叫声进行分析研究能进一步了解生猪的生理和行为机制,有助于提高对生猪疾病的诊治效率,了解生猪种群的行为和个体特征。因此,生猪的声音实时监测和识别显得尤为重要。本文利用外接麦克风搭建开发板设
田间草害一直是影响作物生长发育的重要因素,现有除草方式通常采用人工或者喷施化学除草剂,不仅耗时费力,而且效率低下,大量喷洒化学农药还会产生残留,危害农产品安全。随着人工智能和现代农业的发展,采用机器人进行田间除草作业成为一种有效手段,愈来愈受到国内外科研人员的关注。如何准确、高效的识别区分田间作物与杂草是机器人除草的前提,而多目标测距与除草路径规划成为了技术的关键。本文在充分调研国内外相关技术发展
文本情感分析作为自然语言处理领域的一个重要研究方向,能够有效的分析出文本包含的各种情感信息。面对互联网文本资源爆炸式增长的趋势,如何有效的利用文本数据,挖掘背后商业价值和研究价值,具有非常重要的意义。在大数据时代,网络词替换更新速度较快,基于情感词典的方法需要大量人力和财力不断的更新情感词典;基于传统机器学习的方法依赖于对文本的人工标注,很难学习到更深层次的语义信息。在这种形势下,基于深度学习的方
意大利蜜蜂是重要的经济昆虫,它们独特的级型分化现象和劳动分工机制一直是研究的热点。蜜蜂这些独特的行为,使得它们成为研究昆虫大脑对行为调控的重要模型。近年来,单细胞转录组测序技术成为研究复杂组织(如脑组织)的热门研究方法,果蝇等模式生物已经完成了大脑单细胞转录组图谱的构建,但蜜蜂大脑单细胞转录组图谱的研究还是寥寥无几。本文主要运用10x scRNA-seq技术构建了意大利蜜蜂工蜂和蜂王的大脑转录组图
油菜是我国重要的经济作物,分布广泛,但其整个生长周期易受到多种病害的侵袭,尤以菌核病最为严重。油菜菌核病是由核盘菌引起的一种真菌性病害,俗称“白秆病”;可造成油菜品质下降,出油率低,影响农业种植者的经济收入。油菜菌核病在油菜的萌发至成熟均可发病,其叶、茎、花、角果等部位都可能受到感染,其中茎部对产量影响最大。因此能快速对油菜感染菌核病的严重程度分级并及时喷洒农药进行防治对抑制病害的进一步扩展从而提