关于时间序列数据分类问题的研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:liongliong473
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,传递信息的主要数据模式已经从过去的文字和图片逐渐变为了视频。相比于文字数据和图片数据,视频数据具有可传递信息量丰富多样、所包含时空关系复杂、规模庞大等特点。视频数据可传递信息量丰富多样的特点决定了其巨大的应用前景,在即将到来的物联网时代,视频数据将成为人与物体、物体与物体实现互动的基础。与此同时,视频数据所包含时空关系复杂的特点,也为数据分析和信息挖掘带来了全新的挑战。视频数据是一组连续的图像序列,其天然具有时间序列相关性。在视频数据的分析中,一个基本的问题就是物体识别和动作识别,这在统计和机器学习领域可以视为一个分类问题。在传统的分类模型中,大量文献重点研究了截面数据中的分类问题,这些成果在实践中有着广泛的应用。然而,视频数据显然不同于截面数据,我们必须将数据中的时间序列结构充分考虑,才能更充分地利用视频数据中所包含的信息,挖掘出潜在的模式,得到稳健的分类模型。本文着眼于上述问题,重点研究了时间序列数据的分类问题。文献中有很多方法对时间序列数据的分类问题作出了不同的尝试,一个重要的思路是利用条件概率的性质,用贝叶斯网络结构刻画模型中的时间序列相关性,并将这种概率网络与基于概率的分类方法,如逻辑回归,直接结合在一起;另一个重要的思路是利用深度神经网络,通过复杂的网络结构提取样本中包含时间序列结构的特征,然后实现分类的目的,如长短期记忆模型。虽然这两种思路都在某些问题上取得了良好的效果,但是它们都有一定的局限性。基于第一类思路的方法大多受限于基于概率的分类方法,在很多更为复杂的分类问题中,如多标签分类、不平衡数据分类,依据概率进行分类会使得模型变得复杂。此外,在一般的分类问题中,不依赖于概率的分类方法往往比基于概率的分类方法有着更好的表现。基于第二类思路的方法在近几年非常流行,这类方法的主要问题在于模型不具备可解释性,并且对于模型的结构和参数设置都比较敏感。在一些需要模型具有适当可解释性的案例中,如金融数据建模,这类方法就显得无法胜任了。本文的方法在解决时间序列数据的分类问题时,将充分利用上述两种思路各自的优势,同时力图在一定程度上解决它们的局限性。本文引入一种特殊的贝叶斯网络结构—隐马尔可夫模型来刻画时间序列结构,以泛化误差Err(f)=EL(Yt,Yt)评价分类的表现,提出了一个基于隐马尔科夫模型和一般分类器的时间序列数据分类问题分析框架。这个框架具有高度的灵活性,通过适当调节隐马尔可夫模型中的转移概率结构和一般分类器中的损失函数类型与判别函数类型,很多不同结构和类别的分类问题可以类似地被解决。本文重点关注的是分类问题,因此将主要讨论如何通过适当改变损失函数和判别函数来解决不同类型的时间序列数据分类问题,包括单标签分类问题、多标签分类问题以及加权损失函数下的多标签分类问题。在不同的具体案例中,我们都结合模型的复杂程度,分别给出了基于EM算法和基于坐标下降算法的训练方法,以找到快速准确的高效算法。为了保证模型在样本外的稳定性,本文相关章节的内容都会结合具体的模型,在一定的假设条件下,给出模型表现的理论性质。时间序列数据分类问题在现实生活中有着广泛的引用,其中备受瞩目的两个应用场景包括金融市场数据和视频数据的信息挖掘,本文将所提出的模型分别应用在这两类数据中,以探索模型的应用范围并检验其应用价值。金融市场数据的案例中,本文选取了中国A股市场的股票高频数据,解决对后续时刻股价变动方向的预测问题;在视频数据的案例中,本文选取了公开数据集ActivityNet captioning的视频数据,解决视频画面中多动作识别的问题。在解决金融市场方向预测问题的案例中,本文在所提出的时间序列数据分类问题框架下具体构建了单标签分类问题,将经典的处理独立样本分类问题的支持向量机作为分类器扩展到具有时间序列结构的问题中。在理论上,该分类器的表现与相应的贝叶斯分类器表现具有相合性。在数据分析中,无论是模拟数据还是金融市场数据的分析结果都表明,在预测准确性上,考虑时间序列结构的分类模型显著优于忽略时间序列结构的传统分类模型。除此以外,在金融市场数据的案例中,本文的模型还能具有一定程度的可解释性,能够对市场进行合理的解释。对于更加复杂的视频数据多动作识别问题,本文进一步研究了时间序列多标签分类问题和加权损失函数下时间序列多标签分类问题。与时间序列数据单标签分类不同,除了时间序列相关性,多标签分类问题还需要考虑不同标签同时存在的情况,这就带来了标签之间相关性的问题。用不同的方式将标签之间的相关性包含在模型当中,本文考虑了两种不同的损失函数与分类器。首先,汉明损失函数的度量下,本文的模型通过将相邻标签变量视为分类器输入变量的方式引入标签之间相关性,并将时间序列单标签分类问题扩展到多标签的情形,这是第一种处理视频数据多动作识别问题的模型。这种方法是对文献中现有多标签分类模型在时间序列数据情形下的直接拓展。接下来,考虑到视频数据的具体特点,为了更好地考虑标签之间的相关性和错误分类后损失的不对称,本文引入Zhu et al.(2019)中提出的一种全新的加权损失函数,直接通过损失函数来度量标签之间相关性。将加权损失函数引入时间序列数据分类问题的框架,并使用随机森林作为分类器,本文提出了第二种处理视频数据多动作识别问题的模型。理论上,本文证明了,在一定的假设条件下,上述两种处理多标签分类方法的分类器表现都和相应损失函数下贝叶斯分类器的表现具有相合性。模拟实验的结果表明,考虑时间序列相关性和标签之间相关性的方法在预测效果上要优于忽略至少一种相关性的方法。在视频数据的处理上,本文利用深度学习算法在视频数据处理上的优势,先采用3D卷积神经网络从视频数据中提取出大量特征作为本文分析框架下模型的输入变量,再采用自然语言处理技术对描述视频内容的描述性语言进行处理,生成动作标签和潜在状态变量。将预处理后的数据输入到上述两种处理时间序列多标签分类问题的模型中后,模型表现表明考虑时间序列相关性和标签之间相关性能够提升模型的分类预测能力。本文探索了一种全新的考虑时间序列相关性的分类问题建模方法,并分别以单标签分类、多标签分类和加权损失下多标签分类为例由浅入深地说明了所提出建模方法的模型、算法、理论性质和表现。本文的探索是一次新的尝试,特别是在处理视频等较为复杂的数据上,希望在充分利用深度学习挖掘海量数据特征这一优势的基础上,用更具有解释力的统计方法得到表现更好的模型。
其他文献
近幾年大量秦漢法律性質簡牘面世,如睡虎地秦簡、張家山漢簡《二年律令》《奏讞書》、嶽麓書院藏秦簡等,為認識秦漢社會的發展以及政治統治生態提供了翔實的材料和微觀的視角,為我們更深層次認識秦漢社會依法行政的樣態提供了可能,同時也為秦漢法制史的研究帶來了新的生機。其中司法案例性質簡牘是重要的組成部分,是律令條文適用生動地反映,為研究秦漢時期的審判等司法制度提供了最直接的文本。本文以奏讞書、嶽麓秦簡(叁),
学位
甲状腺乳头状癌(papillary thyroid carcinoma,PTC)约占甲状腺恶性肿瘤的90%以上,预后较好,5年疾病特异性生存率>98%[1-2]。朗格汉斯细胞组织细胞增生症(Langerhans cell histiocytosis,LCH),
钢铁产业具有典型的“高能耗”、“高污染”的特点。受多年来“数量型”扩张模式和国内外市场需求变动的影响,中国钢铁产业同样出现了严重的产能过剩现象,企业盈利能力和产业利润都受到了影响。在中国经济新常态的背景下,如何通过有效的环境治理,加快提高钢铁产业的绿色增长水平成为当前亟待解决的问题。本研究基于经济增长及驱动因素理论、绿色增长理论、经济增长的收敛假说、外部性和波特假说,结合钢铁产业发展过程中的环境影
竹林具有重要的生态、经济和社会价值,在我国视为一种特殊的森林类型。近年来,竹子由于具有四季常绿的外貌特征而被逐渐应用到北方植树造林和景观绿化中,主要生长在长江以南省份的竹子(林)引到北方景观规划中,需要充分理解竹林的生态学习性。此外,竹子是世界上生长最快的植物之一,固碳潜力大,精确计量不同尺度竹林的碳储量对于充分发挥竹林在固碳增汇、应对气候变化中的作用具有重要的理论和现实意义。本论文选择竹林面积最
资本具有流动性和逐利性是众所周知的,资本的流动可以从不同角度观察,我们可以从空间的角度研究资本在国际间、区域间的流动,也可以从产业的角度研究资本在第一产业、第二产业和第三产业之间的流动,而本文则是要从虚实的角度,研究资本在虚拟经济与实体经济之间的流动。将经济进行虚拟经济和实体经济的分类,最初要追溯到马克思在《资本论》中关于虚拟资本的论述。马克思从借贷资本到生息资本再到虚拟资本的研究,深刻揭示了虚拟
随着全球气候危机的加剧,气候问题成为国际社会持续高度关注的热点议题。气候问题既关系着全人类共同的福祉和未来,也关系着一国国家安全和经济社会发展全局,因此一直是各主要国际行为体竞争与博弈的焦点,是国际话语权争夺的主要阵地。在国际气候话语权争夺战中,欧盟利用其先发优势,制定并推广了大量国际气候话语规则,使其成为全球气候治理领域的主流话语,构建了欧盟在应对气候变化问题上的话语主导权。国际话语权的取得与否
学位
学位
乳脂及乳脂肪酸(fatty acid,FA)组成是评价乳的营养价值和功能品质的重要指标。为了提升乳的营养品质,科学家在动物营养和基因改良方面做了大量研究。为了对饲粮调控和乳的营养品质进行科学评价,充分了解乳FA组成是十分必要的。然而,由于检测方法的局限性,很难满足乳脂中FA的多样性和复杂性的要求,制约了乳FA的系统研究。本研究旨在建立一套灵敏、准确、稳定的高通量检测方法;系统的研究不同动物生乳的F