论文部分内容阅读
数据挖掘是从大量数据中提取出有效的、新颖的、有潜在作用的、可信的、并能最终被人理解的模式的非平凡的处理过程。序列模式挖掘作为数据挖掘的一项重要研究内容,用于从各应用领域的海量数据中发现所隐含的各种规律并从中获取有价值的知识和信息。周期间隙约束的序列模式挖掘是一种带有间隙约束的序列模式挖掘问题。它要求模式的项与项之间满足用户指定的间隔约束,且间隔大小或范围均相同,即挖掘形如a1[M,N]a2[M,N]a3[M,N]…am-1[M,N]am的频繁模式(M和N分别表示最小和最大间隙)。在DNA序列上挖掘周期间隙的序列模式中,一项重要工作就是预测最长频繁模式的长度。由于现有的周期序列模式挖掘算法需要预先对序列的最长频繁模式长度进行估计,但是目前尚无方法进行给出,通常采用经验给出的方式,因此,论文针对此问题展开研究。本文采用回归方法对此问题进行有效估算,为此课题从以下三个方面进行研究和实现。一是回归目标获取,利用周期间隙约束的序列模式挖掘算法对DNA序列的数据集进行挖掘,统计出各种间隙和阈值下的最长频繁模式的长度,以此获得待目标结果;二是特征提取,通过计算长度为2的模式在间隙约束下在DNA序列中出现频度,获取实验数据集的前16维,第17维是序列模式挖掘的频繁模式阈值,第18维则是最长频繁模式长度,以此实现特征提取;三是回归方法构建学习机,通过前两个阶段,已经获得实验所用的训练和测试数据集,然后本文分别采用BP神经网络、最小二乘支持向量机(LS-SVM)和极限学习机(ELM)对这些训练数据进行学习,并用测试数据对学习效果进行测试。最后,本文设计了两大组实验,一是在阈值与间隙变化下回归最长频繁模式长度;二是在阈值与序列变化下回归最长频繁模式长度。实验结果表明:采用ELM方法具有良好的泛化性,并在序列和阈值变化产生的数据集上具有更好的表现,进而验证了本文方法可以实现对最长频繁模式长度的回归。