基于特征提取的聚类方法研究及其实现

来源 :江南大学 | 被引量 : 0次 | 上传用户:ai2009ni
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学的发展是多种学科交叉的结果,在众多领域中都有研究,并拥有多重身份,能够为更多生命科学研究做出贡献。随着生物信息学数据库的快速增长,如何有效的组织分析、处理这些海量的基因数据,从中提取出有效的医用和生物信息,越来越成为学者们关注和研究的热点。基因特征提取是分析数据和处理数据的重要技术,在生物信息学中有着广泛的应用,比如研究基因的共同功能等方面。目前,基因特征提取的方法有很多,本文在已有的特征提取方法之上,加入新的知识,并通过实验结果比较来说明该方法的优越性。本文主要工作如下:(1)针对基因序列分类的特点,结合模糊聚类分析方法,在原有Markov链模型基因聚类方法的基础上,引入核酸碱基对的相互作用值,得到具有双重性质特征的距离矩阵,并根据模糊聚类分析方法得到模糊相似性矩阵和动态聚类图,从而实现对基因序列的分类。通过对包括人类16个物种的16条p53基因序列进行模糊聚类,聚类结果表明物种关系越相近,更容易聚成一类。此外,还将检验双重性质的矩阵方法与原来的单一性质方法作聚类结果进行对比,发现具有双重性质的方法更准确。(2)Markov链模型中利用碱基对的转移概率提取特征向量的方法,忽视了碱基对的位置信息。基于此,通过计算基因序列碱基对的平均数、期望和方差的特征向量,构成了48维特征向量方法;并计算序列中单个碱基的平均数、期望和方差特征向量,构成的12维特征向量方法。利用上述两种方法对p53基因、哺乳动物线粒体和禽流感病毒(H7N9)数据集进行聚类分析,实验结果表明,利用48维特征向量方法聚类的结果能够更加准确地反应生物信息学的本质特征。(3)为了避免计算量偏大,本文引入了具有一定的物理特性的核苷酸游离电子的平均能量(EIIP)方法,将DNA序列映射成数字信号,利用功率谱对基因序列的三周期性进行分析,其次,采用离散傅里叶变换方法得到基因序列的特征频谱,构造12维特征向量方法。这种方法既包含了基因序列中碱基的位置信息,又可以简化计算;选取p53家族基因数据进行分层聚类,和VOSS映射功率谱的DNA序列分析方法进行对比分析,结果表明本文方法更优。
其他文献
【目的】监测两年深圳地区儿童急性下呼吸道感染的病毒等病原分布情况及临床流行特点。【方法】2003年12月~2005年11月该地区确诊为急性下呼吸道感染的5 651例患儿,取静脉血
伴随着我国华侨在东南亚地区的开拓和发展历史的谱写和延续,包括华文戏曲和话剧、歌剧等的华文戏剧,也在当地播种和衍生、发展。东南亚华文戏剧,是在我国传统文化和“五·四
<正>2012年全国"扫黄打非.天山工程"座谈会4月26日在北京召开后,自治区新闻出版局随即于5月3日召开了专题会议,进行研究和部署。局党组书记石永强、局长古力先.吐拉洪、副局
褐煤、长焰煤等高含水低阶煤,无法直接用于水煤浆和粉煤气流床气化。概述了目前国内外开发的低阶煤低温蒸发脱水和干燥提质,低阶煤液态脱水提质,转化提质等方法。适用于粉煤气化
<正>今年年初,美国《防务新闻》曾报道,美国军方实验室正在提高其数字破译能力,通过无线电系统渗透进入独立的电脑局域网系统。近几年来,美军从事网络作战的人员不断增加,目
电源在电子设备领域占有重要地位。我国的电子技术快速发展,经济水平不断提高。对开关电源的要求相应更高。电源开关在我国各个领域应用广泛,相应的科技水平较之前得到很大提
交通运输虚拟仿真实验教学是通过计算机网络技术实现现实与虚拟环境的对接达到教学目的的实践教学方式。文中以淮阴工学院国家级虚拟仿真中心建设为例介绍了交通运输类虚拟仿
针对延边地区苹果梨主产区进行土壤稀土元素地球化学特征的研究,以便于进一步分析土壤与果品的相关关系,提高苹果梨的产量和品质。结果表明:龙井、三合、图们和珲春4个苹果梨
研究杜琪峰电影不能离开同类型的香港电影文本,也不能孤立地只读解他诸多作品中的一部。互文性文本需要从垂直和水平两个维度进行展开和分析,这有助于我们揭示杜琪峰电影内在
本区通过骨干示范、主题研讨、学术沙龙等校际联合教研活动,充分发挥省实验小学和骨干教师的示范、辐射、引领作用,以强带弱,最大限度地缩小学校之间、教师之间的差距,实现教