论文部分内容阅读
依据生物学知识,按照氨基酸分子中侧链基的极性性质,把碱基三联体分成五大类,即四大类氨基酸和终止码。以五类密码子出现的频率构成的特征向量来表征DNA序列。这是从不同序列中氨基酸含量不同提炼出能从碱基含量和碱基排列情况两方面代表序列特征的氨基酸类别信息的方法。
然后用三种统计方法进行分类。用马氏距离判别法和FISHER判别法对给定序列进行分类,样本回代正确率均达100%,二者分类一致率为90%;应用聚类分析方法对DNA序列片段进行分类,样本回代正确率达95%。
本模型考虑结合生物学知识,特征向量维度较低,便于计算,分类结果精度较高,优于仅基于碱基含量的判别分类模型。