回归方法估算最长频繁模式长度研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:t6293003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量数据中提取出有效的、新颖的、有潜在作用的、可信的、并能最终被人理解的模式的非平凡的处理过程。序列模式挖掘作为数据挖掘的一项重要研究内容,用于从各应用领域的海量数据中发现所隐含的各种规律并从中获取有价值的知识和信息。周期间隙约束的序列模式挖掘是一种带有间隙约束的序列模式挖掘问题。它要求模式的项与项之间满足用户指定的间隔约束,且间隔大小或范围均相同,即挖掘形如a1[M,N]a2[M,N]a3[M,N]…am-1[M,N]am的频繁模式(M和N分别表示最小和最大间隙)。在DNA序列上挖掘周期间隙的序列模式中,一项重要工作就是预测最长频繁模式的长度。由于现有的周期序列模式挖掘算法需要预先对序列的最长频繁模式长度进行估计,但是目前尚无方法进行给出,通常采用经验给出的方式,因此,论文针对此问题展开研究。本文采用回归方法对此问题进行有效估算,为此课题从以下三个方面进行研究和实现。一是回归目标获取,利用周期间隙约束的序列模式挖掘算法对DNA序列的数据集进行挖掘,统计出各种间隙和阈值下的最长频繁模式的长度,以此获得待目标结果;二是特征提取,通过计算长度为2的模式在间隙约束下在DNA序列中出现频度,获取实验数据集的前16维,第17维是序列模式挖掘的频繁模式阈值,第18维则是最长频繁模式长度,以此实现特征提取;三是回归方法构建学习机,通过前两个阶段,已经获得实验所用的训练和测试数据集,然后本文分别采用BP神经网络、最小二乘支持向量机(LS-SVM)和极限学习机(ELM)对这些训练数据进行学习,并用测试数据对学习效果进行测试。最后,本文设计了两大组实验,一是在阈值与间隙变化下回归最长频繁模式长度;二是在阈值与序列变化下回归最长频繁模式长度。实验结果表明:采用ELM方法具有良好的泛化性,并在序列和阈值变化产生的数据集上具有更好的表现,进而验证了本文方法可以实现对最长频繁模式长度的回归。
其他文献
传统造船企业生产物料的供应属企业内部事务,由企业自身组建的供应体系来承担供应,因此其采购、储存、运送等供应流程,具有十分浓重的计划色彩,有很强的预知性和规律性,采购
在石油勘探工程领域,测井图纸是一种被广泛使用的测井资料。工程图纸数字化是将纸介质工程图纸扫描输入计算机后,对所得的扫描图像加以分析、识别,最终重建其中的目标对象的
Web服务技术作为程序设计领域中的一项新技术,能够使不同的平台具有互操作性,通过遍布全球的因特网,实现应用程序之间的远程过程调用。但单一的Web服务已经难以满足日益广泛
随着科学技术的不断发展,嵌入式系统在工业控制和智能家电领域得到了广泛的应用,同时控制逻辑和功能也变得越来越复杂,因此,简单的嵌入式系统已经不能满足这种需求,为了解决
虚拟人足迹规划和路径规划是虚拟人技术中很重要的研究内容。通过调整足迹来控制虚拟人的落脚点,进而可以驱动虚拟人的行进动作。路径规划则可以为虚拟人在虚拟环境中规划一条
逻辑推理是人工智能的基础,而逻辑中的一阶谓词逻辑是使用较为广泛的知识表示方法,因此研究一阶谓词逻辑的推理问题是一项很有意义的工作。在前人研究的基础上,借助Petri网中的
近几年来,随着云计算的快速发展,服务提供商越来越倾向于将本地数据部署到云上。然而,一些安全方面的问题随之而来,一方面,云数据提供商不希望自己的数据被云服务提供商窥视,
为保证有效合理地施用农药防治农作物病害,农业生产者必须准确的获取作物的生长信息,这样,农业生产者可根据获得的病害信息快速、准确的诊断受害作物的病因以及受害程度,因病治宜
随着生产力水平的提高,农业信息化现以成为我国农业发展的主要方向。近年来,越来越多的人工智能技术被应用到智能决策支持系统(DSS)的研究与开发中,以期改善问题求解的过程和
本文详细介绍了网格操作系统中资源监测服务的研究与实现。通过对网格操作系统的深入研究,发现网格操作系统虽然能够管理上千台计算机协同工作,但用户却无法查看整个机群的运