基于序列信息的piRNA和启动子研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wenhui10005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着后基因时代的到来和基因测序技术的飞快发展,人们获得了越来越多的生物分子序列信息。由于生物分子中的基本单位排列顺序和长度不同所造成的序列组成、分子结构以及序列组成对应的理化属性不同,导致这些生物分子具有了不同的种类和功能。其基本单位排列顺序的复杂性也给基于传统生物实验分析生物分子带来了困难。而序列信息是最能直观表达生物分子的信息。通过序列信息分析生物分子的种类和功能正逐渐成为生物信息学中最重要的研究任务之一。在这种背景下,本文采用多种特征提取方法结合机器学习方法对生殖细胞中维持基因稳定性的piwi-interacting RNA(piRNA)和调控基因表达的重要元件启动子进行了探索和研究。本文主要研究内容包括:基于序列信息的piRNA识别和功能分析预测方法。传统上,识别piRNA分子主要通过核苷酸组成和分子序列中的转座子信息相结合的方法来识别piRNA分子,这些识别方法都取得了很好的效果。本文将在多种分子识别任务上都取得较好性能的特征提取方法Pse KNC应用到piRNA分子识别的任务中。该方法提取的特征不仅包含序列组成信息,还包含序列组成对应的理化属性信息,通过该方法可以更好地刻画piRNA分子的序列信息。通过对比实验发现,该方法优于现有的基于序列信息识别piRNA的方法。同时,在此问题的基础上构建二层分类模型,对piRNA分子的功能进行识别,均取得了很好的预测性能。基于序列信息的启动子识别及其类型识别方法。在启动子识别方面,其识别方法主要通过启动子序列上的RNA聚合酶结合位点来识别启动子序列。为了充分描述这一特性,采用滑动窗口的思想对启动子序列进行划分,对每一个启动子子序列分别用Pse KNC方法提取特征。本文所用的方法结合了启动子的序列特点和Pse KNC特征提取方法的优点,更好地刻画了启动子的序列特征。此外,本文设计了一个二层结构,将启动子的类型识别问题当作多分类问题来处理,取得了不错的效果。基于多尺度窗口序列特征的启动子识别及其类型识别方法。根据启动子序列具有局部保守性的特点以及滑动窗口划分序列提取启动子特征的有效性。在以上基础上对识别启动子的方法进行改进,引入序列的局部保守性自适应地对启动子序列进行分割,对分割后的序列更细粒度地提取了启动子的特征并分别建立模型。通过实验发现,通过自适应窗口分割序列的方法提取特征所建立的模型可以提高识别启动子序列的准确率。
其他文献
口译是以语言口头表达为主要形式、以信息传递为目标,为语言、文化都不同的交际双方或多方提供沟通交流的一种翻译类型。口译基本分为两大类,即同声传译与交替传译。在交替传译过程中,译语时长偏长是一个非常常见的现象,尤其是在由母语译到外语时更为明显,也是从学生译员转变为职业译员的过程中需要改善的一个重要方面。译语时长虽然不是口译过程的决定因素,但其对整体翻译效果的重要性却不容忽视。在阿汉交传中,听辨对阿语为
金属有机框架(MOFs)以其结构多样性,高孔隙率,结构可调,合成方法简单等独特的优势在科学界迅速发展。本论文通过增加有机配体的链长及空间体积,旨在合成孔径大、结构稳定以及结
首先以地方企事业对高级工程技术人才的实际业务要求为出发点,分析得到应用型本科院校业务教学的轴心是专业基础技术.进而提出以主干课程为核心的模块化教学结构,以及按从抽象
研究背景:近年来股骨粗隆间骨折好发于老年人,PFNA(防旋股骨近端髓内钉)作为治疗老年股骨粗隆间骨折的手术方法之一,因其具有创伤小、能够快速实现患者术后早期下地负重活动等优点,已广泛应用于临床,由于老年患者本身存在心脑血管等基础病,一直存在住院时间长、术后并发症、髋关节功能恢复不理想、生活质量下降等问题,外科快速康复理念作为帮助外科手术患者围手术期快速康复的方法,具有促进患者早期康复锻炼、降低围手
蛋白质折叠识别和远同源性检测问题是生物信息学领域的两个基础问题,解决问题的主要思想是根据蛋白质序列信息的相似度推断其结构和功能的相似度。折叠识别问题难度高于远同
寨卡病毒(ZIKA virus,ZIKV)是有包膜的单股正链RNA病毒,属黄病毒科黄病毒属蚊媒病毒的一种。ZIKV感染易导致格林巴利综合征和新生儿先天小头畸形。由于缺乏理想的动物感染模
在学习奇异积分的过程中,由Grafakos和Stefanov提出的特殊条件经常应用在核的有关研究中。本文第一章,简单介绍了奇异积分的发展过程,主要是其有界性性质,Grafakos-Stefanov条件和相关的定理。在第二章当中,Grafakos-Stefanov条件拓展到了更广泛的函数空间,因此得到了基于奇异积分和最大奇异值积分的新定理。一个构建的例子表明,在核上新延展的条件和Grafakos-S
青堆子镇位于庄河市东北部,归属庄河市管辖,青堆子古镇位于青堆子镇南侧,最早关于该地区人员活动的历史记载可追溯至唐代,主要繁华在明代至建国前。是大连地区较为繁华的古镇之一,古镇域形态较为完整,建筑以商业和居住混用为主,有典型辽南建筑的地域特征,对研究大连地区小型城镇港口商业在建筑中的影响有较好的代表作用。本文以青堆子古镇的整体空间布局和主要建筑为研究对象,以文脉的传承和保护为研究视角,以“文脉切片”
金属-有机框架材料(MOFs)已成为无机化学和材料化学领域最具有活力的课题之一,它在气体吸附和分离、传感器、药物缓释和运载以及催化反应等领域具有重要的应用前景。含有氮唑和
毛细管电泳-电化学发光(Capillary Electrophoresis-Electrochemiluminescence,CE-ECL)是一种结合了毛细管电泳分离效率高、分析速率快、进样量少和电化学发光灵敏度高、线性