基于间隔理论的序列数据挖掘研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhangxyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列数据在各个领域广泛存在,序列数据的分析和数据挖掘研究成为科学研究领域持续关注的热点。序列数据的知识发现因数据的高维度、时间维度信息的非独立等特性,导致信息很难得到有效利用,许多传统机器学习算法难以取得理想效果。针对时序数据特殊性,运用机器学习中的大间隔理论,对时序数据挖掘的几个问题进行了研究,具体从以下几个方面进行了研究:设计了基于间隔的时间序列相似度量方法。相似度量作为机器学习的核心问题,直接关系到算法在时序数据挖掘中的效果。不同的时序问题普遍存在形式多样的相位偏移现象,本文设计了基于间隔理论的动态时间弯曲相似度量约束学习方法。相比现有欧氏或者动态时间弯曲距离等相似度量体系,改进了序列扭曲的匹配策略。针对距离集中问题,通过基于间隔的范数学习的方法来加强度量函数在高维空间下的有效性。设计了时序特征片段提取及基于片段的分类算法。时序数据挖掘的难点之一,就是有效判别信息常常隐藏于局部的片段而不是整个序列区域,这一现象常常存在于图像边缘运动轨迹等序列问题。本文设计了针对序列的特征片段抽取方法,通过各个片段有效信息的对比,选择判别能力最大的若干片段来表征整个序列。这种基于片段的特征提取/数据重新表达方法与传统方法相比,特别适用图像边缘或运动轨迹曲线得到的序列数据,提高了分类精度、效率和可解释性。同时与同类知名算法shapelet进行了对比,实验验证了该算法的分类性能。提出基于间隔的序列粗粒化表达算法。研究了序列数据从数值到符号的转化中,有效信息及无效信息的变化关系。发现数据形式的变换过程虽然会造成部分有效信息的损失,但也会带来了无效数据的约简。提出基于间隔的有监督的序列数据粗粒化方法,提高了分类精度和效率,并通过实验验证。设计了基于大间隔关键案例加权的时序分类模型。通过给离群点和冗余样本以较低的权值,提高分类模型的泛化能力,通过减少冗余训练样本还能提高分类模型的计算效率。设计关键样本集时,利用大间隔理论评价每个样本的效能,增加能产生最大假设间隔的样本的权值,减小离群点和冗余样本的权值,提高了分类模型的泛化能力。最后通过实验验证了这一思想方法的有效性。
其他文献
极端事件对金融市场的影响巨大,我国股市受08年金融危机所累,至今未能走出发展的泥潭。极端事件引起的尾部风险越发受到广大学者和金融监管部门的兴趣和关注。如何对尾部风险进
以薏米和枸杞为主要原料制成一种保健饮品。通过正交试验,确定最佳生产配比为:蔗糖5%,柠檬酸0.2%,薏米、枸杞的比例为3∶1。对饮料的可溶性固形物、酸度、还原糖、金属元素、
<正>什么是墓葬?"葬者,藏也。"一个安放死者肉身的空间,伴随着遗体、遗物的安置,纪念活动的结束,活人从这个空间退出,墓门关闭,一切变得安静下来,画面定格,时间由此停滞。这
黑龙江流域地处欧亚大陆温带草原东缘及北方森林南缘的过度地带,同时地跨中、蒙、俄三国,极高的植被覆盖度及其固有的气候条件,使其成为受森林火灾影响较为严重的一个区域。特别
资产评估业作为一种知识密集型的服务行业,对从业人员的职业能力和综合素质提出了较高的要求,而完善的资产评估人力资源培养体系是满足这一需求的有效途径。培养高素质的评估
随着对外汉语教学的迅速发展,文学课作为对外汉语教学的一部分,其重要地位也渐渐得到了对外汉语教学界的认可,而文学教材直接关系着文学课的教学内容,其编写的成功与否,影响着文学
通过开展同田对比试验,进一步探索和验证生物可降解农膜在烤烟生产中的生物效应。结果表明:覆盖生物可降解膜的烟株生物学性状优于覆盖普通地膜的烟株;利马格兰地膜12μm比10
<正>我们大概可以这样说:教材选文除了文学类就是实用类。实用类文章应该包括应用文和论述文,还涉及交叉文类。各种教材的选文,实用类文章占了"半壁江山"。依教育目标而言,实
<正>"蟹六跪而二螯"出自《荀子·劝学篇》。跪,足,指蟹腿;螯,即蟹钳。这句话的意思是说螃蟹有六条腿和两只螯。吃过螃蟹的人都知道,螃蟹实有十条腿,如果把两只螯算在外,也还
目的进行野马追中总黄酮提取工艺研究。方法采用正交设计,以总黄酮含量为评价指标,考察乙醇浓度(A)、乙醇用量(B)、提取时间(C)、提取次数(D)4个因素对野马追中总黄酮提取的