生物序列非比对算法和聚类算法的研究

来源 :福建师范大学 | 被引量 : 1次 | 上传用户:naonao6521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息技术的不断发展,其数据量增长惊人,特别是随着二代测序技术的成熟,DNA与RNA序列的数据量呈爆炸式喷发,因此对生物大数据的分析和研究也变得更加迫切。序列的比对算法是生物信息研究中最基础的操作,对生物研究的其他各方面的工作提供重要支持。由于传统序列比对算法一般时间和空间复杂度较高,因此降低序列比对算法的复杂性和(或)提高精确度,是相当重要的。本文针对这些问题,通过对序列比对和序列聚类等问题进行了探讨,提出了两种新的算法,这些新算法在降低时间复杂性和提高精确度方面,都做出了贡献。概况而言,主要完成了以下两点工作:1.针对现有序列比对算法存在的时间复杂度高的问题,提出了一种新的基于权重的算法(weight-based Kendall algorithm,WK2)。首先,用后缀树提取序列的特征;其次,应用本文定义的基于权重的Kendall相关系数来计算序列的相似度。规避了传统算法使用动态程序对序列进行比对,从而减小时间复杂度。实验表明WK2算法执行时间复杂度为O(nlogn),n为数据集合大小,相比业界现存O(n2)复杂度的算法是较大的提高。该算法对不同结构的数据集,在时间和空间复杂度上都有良好的实验结果,验证了该算法的有效性。2.针对现存算法时间效率不高、准确率较低、聚类结果的生物意义不够明显的问题,提出了基于信息熵的局部敏感哈希聚类算法。使用p稳定分布的局部敏感哈希方法来降低查找相似序列的时间复杂度;利用位置信息熵作为哈希函数的特征向量来提高准确率;在评估聚类结果时使用编辑距离作为度量指标以增强生物学上的可解释性。该方法使用基于位置信息的标准熵作为局部敏感哈希函数的特征向量对生物序列进行聚类,其实验结果表明算法执行时间和数据集合大小成线性相关,对不同量级的数据集都有良好的实验结果,并且在模拟数据和真实数据的实验结果均验证了该算法的有效性。序列比对是生物信息学研究的基础,该研究通过对生物序列比对问题和生物序列聚类算法的改进,能够提供新的方法来降低对生物序列的前期筛查和从大量数据中快速找到感兴趣的序列。除了生物学中的DNA序列,RNA序列,蛋白质序列等,该研究中提出的方法还有可能被应用于其他有序列特性的数据中,比如网络流数据。在当前的大数据环境下,这些方法有着其潜在的应用前景。
其他文献
目的:分析白内障围手术期使用溴芬酸钠眼液的术后黄斑中心凹厚度变化及黄斑水肿的发生率,评估此种非类固醇抗炎药预防白内障术后黄斑水肿的应用价值。方法:对我院同一位医生
目的比较不同剂量吲达帕胺(Ind)和替米沙坦(Tel)联用对自发性高血压大鼠(SHR)的降压作用及对心功能的影响。方法40只SHR随机分为5组:①空白对照组;②低-低剂量组:Ind 0.06 mg
目的:探讨Ahmed青光眼阀植入术治疗新生血管性青光眼(neovascular glaucoma,NVG)术中联合前房内注入透明质酸钠对手术疗效及术后并发症发生率的影响。方法:回顾性病例对照研
目的对益气复脉口服液中的君药红参进行含量测定。方法采用高效液相色谱法,色谱柱:YMC ODSA柱(150 mm×4.5 mm,5μm),检测波长:203 nm,流动相:乙腈-水(梯度洗脱),对复方中人
介绍生物柴油的主要特性,评述了其现有的各种生产方法,介绍了国内外生物柴油研究应用情况及发展趋势,并对我国生物柴油的发展进行了展望。
本文概括了预应力混凝土连续梁桥静力分析和参数敏感性分析现状,并在此基础上,结合郑州市陇海路高架工程,以其中的三跨预应力混凝土连续箱梁桥作为研究对象,采用有限元分析的
基于漏泄同轴电缆的周界入侵探测系统是一种以埋在地下的漏泄同轴电缆作为收发天线的探测系统。因其隐蔽性好、抗干扰能力强、误报率低、环境适应性强等特点,该系统在安防领
研究目的:探讨篮球运动干预对大学生自我控制、攻击行为的影响,同时拟合本研究提出的篮球运动干预影响大学生攻击行为的自我控制中介作用模型,为预防大学生攻击行为的运动干预提供基础。研究方法:采用方便取样抽取扬州市某高校103位学生作为实验被试,分为实验组(女生28人,男生23人)和对照组(女生30人,男生22人),实验组实施12周、每周2次,每次累积30分钟的中等强度的篮球运动干预;对照组不进行运动干预
1988~1989年,1993~1995年,两次对我国寒温带哺乳类物种多样性进行了调查研究,结果表明,该区共有56种兽类,分属6目;区系特点表现出泰加林群落的特征,北方型和东北型兽类相混杂,