基于SVM-RFE算法的植物组织特异APA位点识别研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:benson55
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
真核生物的多聚腺苷化(Polyadenylation)过程是基因转录为成熟mRNA的关键步骤。多聚腺苷化位点(poly(A)site)决定着基因转录的终止位置,对基因的表达具有十分重要的调控作用。如果一个基因存在多个poly(A)位点,其前体mRNA会在多个位点处选择性剪切,即通过选择性多聚腺苷化(Alternativepolyadenylation,APA),从而产生长短不同的mRNA,实现基因表达的多样性。选择性多聚腺苷化过程大量存在于真核生物中,在水稻基因中,超过70%的基因具有两个或以上的poly(A)位点。分析和识别不同类型的APA位点及其组织特异性有助于基因表达的机理研究,也能促进对生物体生长发育过程的理解。基因的组织特异性研究是探索生物体生命活动进程和组织细胞功能的重要步骤。生物技术的发展使得各种生物组织的表达量数据呈现大规模增长的趋势,这为组织特异性的研究提供了可能,但也给处理和分析全基因组大规模数据带来了挑战。在组织特异性APA位点的识别方面,当前的研究多侧重于动物。植物由于poly(A)位点的分散性、多变性、复杂性的特点使得组织特异性基因识别十分困难,目前还没有植物中识别组织特异性APA位点的相关研究。本文基于支持向量机(Support Vector Machine,SVM)和递归特征消除算法(Recursive Feature Elimination,RFE)对水稻组织特异性APA位点进行识别研究。首先,通过对水稻14个组织提取APA位点、数据的标准化等过程获得APA位点所在基因的表达量数据;其次,通过熵的均值权重法从基因表达量数据中筛选出组织特异性和非组织特异性APA位点数据,并以此数据作为真假组织特异性APA位点数据集;再次,根据水稻组织APA位点上下游区域的信号特点,提取其位点近邻特征、Z曲线特征、二级结构特征、核小体特征、一阶马尔可夫异构矩阵特征构成特征空间;最后,使用熵值识别出的2693个组织特异性APA位点作为训练集,使用SVM-RFE算法进行特征选择后构建SVM识别模型。实验结果显示,SVM-RFE算法使得识别模型的识别正确率由0.68提高到0.7,位点近邻特征是识别组织特异性APA位点的最重要特征。结果说明本文使用SVM-RFE算法对植物组织特异性APA位点进行识别的方案可行且有效。
其他文献
利用河南1978-2005年农作物受灾面积资料和新中国成立以来的产量资料,分析了河南主要农业气象灾害的变化特征和对农业生产的影响,结果表明,28a来河南农作物受灾面积呈上升趋势,其
本文描述了不同通讯协议在某核电厂KSN系统与第三方进行数据通讯中的应用,涉及KSN与KIC、TES、机柜监测模块(RS485 Modbus)的通讯。
犯罪罪前情境的初步研究明确了情境因素如何促使青少年罪犯产生犯罪的动机,如何促使犯罪动机转化为犯罪行为.青少年性犯罪的罪前情境包括主观罪前情境、客观罪前情境和时空中
本文讨论因子分析的并行计算问题。我们分别给出了样品相关阵的建立、样品相关阵特征值问题的求解和因子载荷阵的方差极大正交旋转的并行算法,将它们适当协调即可形成因子分
【正】 十九世纪,阿富汗曾经发生了两次反抗外国侵略者的人民战争,一是1838—1842年的第一次阿富汗战争,二是1878—1880年的第二次阿富汗战争。关于这两次战争的起因,苏联史
期刊
随着科技在生活中不断地创新,媒体传播的影响力日益广泛,受众领域也早已不再单一化,受众群体可以通过网络互动等方式表达自己的政治见解,参与公共事务的决策。因此,主流媒体
正经过2010-2011两年的高速发展,便携音响产业发展达到了一个新的高度,同时一定程度上带动了其他数码音响产品,例如家居音响、苹果音响的快速进步。尽管我们同样可以将便携音
介绍了水轮机压力脉动试验中测量位置、测点数量、信号采样频率及采样时间、空化系数等因素对压力脉动试验结果的影响,并提出在进行压力脉动试验时,应增加测点,延长采样时间,
目的:分析囊性脑膜瘤的MRI诊断、分型及其对于手术的指导价值。方法:搜集本院2015年7月-2018年1月收治的20例囊性脑膜瘤患者的临床、MRI及手术资料,采用Rengachary分型、Naut
运用文献资料法、问卷调查法、数理统计法等研究方法,对青少年篮球运动员在球场上位置进行分析,并对发生的损伤与产生的因素进行研究,旨在推动中国青少年篮球运动的普及和发