基于决策树集成算法的基因剪接位点识别研究

来源 :南京审计大学 | 被引量 : 0次 | 上传用户:flyby
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,将生物学和计算机科学结合已经成为一种趋势。生物的多样性,造成识别生物序列的成本较高,同时对于研究人员也提出了严格的要求。采用算法技术识别生物序列能够减少人力成本同时提高序列标注的效率,因此在生物信息学研究中引入算法模型是必不可少的。对生物体的剪接位点研究,有利于控制DNA转录翻译成信使RNA的过程中,避免一些致癌基因的表达,以此减少对于生物体健康的危害。本文研究决策树集成算法模型来识别生物体的剪接位点序列的应用。根据生物剪接位点序列的特点,设计3LE模型对序列特征进行学习,以此实现高精度识别剪接位点序列。主要可分为以下四个部分:(1)介绍3种主要的决策树集成模型,随机森林、XGBOOST和Light GBM模型以及多种常见的集成学习框架,比如:Boosting、Bagging和Stacking等,并对分类算法的评价指标进行了概述。(2)生物体的基因序列由四种核苷酸构成(A,C,G,T),以文本的形式将序列结构呈现出来。计算机为识别生物体的序列特点需要将文本序列转化为数值形式。本文对生物体剪接位点序列进行去除杂质项处理后,采用多种K-MER编码(K=1,2,3)来采集序列结构信息,利用相对频数编码的方式将文本序列转化为数值序列,以此完成对生物体剪接位点序列的数据预处理和特征工程操作。(3)本文采用决策树集成算法来对生物体的剪接位点序列进行识别,通过分类算法的评价指标分析,验证了决策树集成算法对生物体的剪接位点序列识别的可行性。同时,发现Light GBM模型能够高效识别剪接位点序列,识别的准确率均在0.94以上,最高可达0.98。此外,通过SHAP值和决策树模型的特征重要性分析发现剪接位点周围的核苷酸构成会对模型识别序列造成影响,尤其是序列中腺嘌呤脱氧核糖核苷酸的含量对模型识别序列做出的贡献最大。(4)本文根据Stacking集成思想和对序列的先验知识了解,构建3LE模型来差异化识别不同侧的剪接位点序列,经分析发现该模型相较于单个Light GBM模型有较好的识别序列能力和较好的泛化性能。同时,3LE模型的预测精度优于一些现有的剪接位点序列识别方法,采用3LE模型对受体剪接位点序列识别可以平均降低31.07%的相对误差率,对供体剪接位点序列识别可以平均降低15.29%的相对误差率。
其他文献
金融资产收益与波动,一直都是金融领域关注的焦点。进入“十四五”规划的第二年,在这新的发展阶段,为了稳定大局,我国正在落实积极且稳健的宏观政策。总体上国内新冠疫情得到较好控制,但是当前国际环境依然严峻、局部地区疫情反复,整体经济大环境存在诸多不稳定因素。所以,对金融市场保持关注与研究是十分必要的。在过去的研究中,由于宏观经济数据频率通常为月度、年度这一限制,与日度类股票市场等的金融数据不同频率,在研
学位
近些年来,我国互联网技术飞速地发展。电子商务平台借助于这一股东风也迅速成长,逐渐成为拉动我国的消费水平,帮助传统企业进行改革与升级,实现脱胎换骨,发展现代化服务行业的一个重要核心组成部分。所有人生活最简单的方式都发生了翻天覆地的变化。本文采用和鲸社区大数据竞赛平台所提供的亚马逊平台电子产品销售数据,这是已经经过脱敏处理的真实交易数据,对消费者的行为进行统计分析,对交易价格进行挖掘预测,预测未售出产
学位
改革开放以来,我国经济得到了快速发展,房地产产业也得到迅速发展,国家统计局2020年数据显示,房地产行业投资占GDP比例是7.2%,房地产行业在国民经济中具有重要地位。二手房价格对房地产业发展具有重要影响,也对居民的消费、生活满意度等具有重要影响。不同城市间经济结构、居民收入、居民消费等都具有不同的特征。当前针对对北京、上海等一线城市以及部分省会城市二手房价格研究较多,而对于非省会的一部分“新一线
学位
2020年,我国向世界做出承诺:争取在2030年前实现碳达峰,在2060年前实现碳中和。作为二氧化碳排放大国,要兑现碳达峰、碳中和的承诺,仍然承受着很大的压力,面临较大的困难。在此背景下,碳排放权交易这一市场机制可以发挥重要作用。我国碳排放权交易市场从2011年试点以来,到2020年,碳排放市场的配额成交量规模跃居全球第二。2021年,全国性的碳排放权交易市场启动,至此,中国碳排放权交易市场覆盖范
学位
近年来,随着互联网金融服务与产品的提升,金融市场的挑战日趋激烈,紧张的竞争环境导致我国银行业面临着客户忠诚度降低、业务损失过多等问题。分析研究流失客户的显著特征,同时对客户流失的概率进行预测,进而提供个性化且高水平服务,将对降低银行客户流失,减少资金损失,维持银行自身的经济效益与发展前景具有重要的意义。本文在系统梳理有关银行客户流失特征研究与预测的文献基础上,针对银行客户数据集中用户特征高维稀疏及
学位
随着人民生活水平的不断提高和信息时代的不断发展,越来越多的个人投资者参与到股票市场中。股市的变化与投资者们的投资盈亏情况息息相关,然而股市的走势是不确定的,如何把握股票的价格走势、形成有效的投资组合以及获取更多的投资收益成为投资者们关心的问题。上市公司的财务信息是投资者进行投资的主要依据,它能让投资者直观地了解到上市公司的经营业绩情况,在投资者做出投资决策时具有重要的参考价值。财务指标作为评判公司
学位
财务欺诈问题由来已久且屡禁不止。对我们国家而言,财务欺诈这种行为严重背离社会主义核心价值观,容易破坏社会和谐稳定,同时会给实施财务欺诈的公司自身、给投资者都带来负面的影响。而财务欺诈往往又具有一定的隐蔽性,因此能够有效识别财务欺诈对当下我们的社会生活具有无比重要的意义。本文以2011至2020年我国全部A股上市公司作为目标对象,选取财务欺诈样本与非财务欺诈样本,其中财务欺诈样本符合虚构利润、虚列资
学位
在建筑工程的项目管理中,土方量的测定和估算是其最为重点的施工内容,是建筑工程造价估算的关键步骤和环节。随着工程项目的规模越来越大,传统的土方量计算方法慢慢地显现出不足之处,计算的粗糙性和随意性不能满足投资者对工程造价计算准确的要求。因此在这一阶段,最重要的方法是使用数字高程模型(DEM)来计算土方量,该方法计算精度高且适用范围广,能够达到对真实地形进行数字化模拟的效果。土方量计算结果的准确性与所建
学位
汇率是一个国家用于衡量对外经济形势的评估指标。汇率波动在一定程度上会增加资本在全球市场流通的风险,外汇市场的稳定与汇率的稳定成正比,汇率越稳定,外汇市场越稳定。此外,对汇率进行有效预测有利于加快人民币国际化的进程,进一步消除美元霸权对世界贸易的阻碍。基于此,汇率具有较高的预测价值,同时人民币汇率的走势也吸引了更多的关注。本文选取2010年1月至2021年9月的人民币兑美元汇率的月度数据,搜集了包括
学位
2021年“十四五”规划突出表达了关于深化金融供给侧结构性改革的内容,近年来随着我国金融资本市场的快速发展,金融衍生品的交易开始慢慢取代传统的基础金融产品交易,金融衍生品的市场占比也越来越高。其中,期权是近年来中国以及国际金融市场中扮演着重要角色的金融衍生品,也是具有活力的金融风险管理工具之一,期权定价同样也是金融领域研究中的核心之一。自从BlackScholes期权定价模型(BSM)提出后,关于
学位