概率主题模型的研究及其在多媒体主题发现和演化中的应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:kjtx123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术、互联网和数据库技术的发展,人们积累的数据不断增加,信息泛滥问题日益严重。如何从大量的数据集中发现用户感兴趣的热点主题以及这些主题随时间发展演化的情况,逐渐成为这个信息爆炸时代的重要问题。搜索引擎的出现为人们从海量的存档数据中快速检索和寻找有用信息提供了一种有效途径。然而,搜索引擎所返回的搜索结果往往是零碎的非结构化的信息,它不能反映整个主题随时间发展演化的情况。随着以LDA为代表的概率主题模型的出现,各种主题发现和演化的研究大量涌现,为解决热点主题的发现和主题随时间的演化等问题提供了很好的途径。近十年来,概率概率主题模型的研究越来越受到数据挖掘和知识发现领域研究者的重视,相关研究成果也在文本、图像和视频数据处理上获得了广泛的应用,取得了不少进展,但也存在一些问题。例如,各种概率主题模型的对比分析、归纳总结的综合性分析还很少出现;在科研文献的主题发现和演化分析研究中,利用结构化的数据中的多种信息源来发现主题和跟踪主题的演化研究方面还不够深入;跟踪不同主题之间的相互演化的研究还未出现;概率主题模型在交通视频的运动模式发现和异常行为检测上的应用还很不完善。针对这些问题,本文首先对各种概率主题模型中的典型模型进行了综述分析和对比研究;在此基础上,针对科研文献数据中广泛存在的多源结构化信息,提出了一种内容和引用信息相结合的概率主题模型,并应用到科研文献的主题发现和跟踪中;其次,提出了一种新的基于随机游走模型的主题演化图构建算法,解决了不同主题之间的演化问题;最后,提出了一种两层结构的非参数化的概率主题模型,并应用到交通视频中的运动模式识别和异常行为检测中。论文的主要工作和研究成果如下:(1)对最新的各种不同类型的概率主题模型进行了综述分析。首先根据模型对时间变量处理的特点,将其分为三类典型模型——离散时间主题模型、连续时间主题模型和在线式的主题模型。其次,分别对这三类模型的特点进行了总结,并选取每类模型中的典型模型进行了详细的分析,包括模型的建模过程、模型特点以及各种模型的优缺点。针对各类概率主题模型的对比实验问题,分析了模型性能比较的各种可能方法,并总结了两种有效的性能指标——困惑度值和sKL散度值。分别对三类主题模型中的典型模型,在两个典型的科研文献数据库上进行了对比实验研究,通过对比实验验证了综述分析中对各种模型特点的分析。(2)提出了一种Citation-Content-LDA主题模型,该模型在一个概率主题模型中综合利用文档的文本信息和文档之间的引用信息来进行主题的建模。该Citation-Content-LDA模型是一种两层的主题模型,其分别利用引用信息来生成“父主题”和文本信息生成“子主题”,在此基础上还实现了主题跟踪算法,并利用吉布斯采样算法来求解模型的参数。通过在两个典型的科研文献数据集上的对比实验研究,验证了该模型的有效性和优越性。(3)提出了一种基于主题分割和主题关系度量的主题演化图的构建算法。针对不同主题之间的演化问题,在Citation-Content-LDA模型发现的主题的基础上,利用主题中文档的时间信息进行主题的分割,解决了主题对齐的问题;提出了一种基于随机游走的主题关系度量算法,借鉴PageRank算法的思想,建立主题之间关联关系的有向无环图,并通过对图的随机游走遍历实现了主题之间关系的概率度量,最终实现了不同主题之间演化关系图的构建算法。通过在两个典型的科研文献数据集上的实验,分别得到了这两个数据集上不同主题之间的演化图。(4)提出了一种非参数化的两层结构的主题模型,应用于交通视频数据的运动模式识别和异常行为检测。该两层结构的非参数化的主题模型能够自动确定每层的主题数量,可分别提取出交通视频中的局部主题(视觉活动)和全局主题(交通模式)。提出了一种基于该两层模型的似然函数的视频异常行为检测算法,在交通视频异常行为检测中取得了比现有方法更好的结果。
其他文献
选取260例于2012年5月~2013年5月我院接收的龋齿患儿,共患有邻面龋或面龋乳牙448颗,根据洞型充填材料的不同将患齿分成A组、B组、C组、D组,A组、B组均为Ⅰ类洞,A组充填材
本文主要深入探索PDDM理论的内涵,建立完善的PDDM设计方法的理论及应用体系,为自售货机设计的设计、管理过程提供新的方法论,从而缩短新产品开发的时间、提高产品质量、降低
摘要:现代学徒制人才培养方案是学徒制的核心内容,那么如何制订现代学徒制专业人才培养方案?本文以工业机器人专业为例,较详细地介绍了人才培养方案的制订过程。  关键词:现代学徒制;机器人;人才培养方案  中图分类号:G710 文献标志码:A 文章编号:1674-9324(2019)21-0245-03   人才培养方案是现代学徒制专业教学活动安排的基本依据,也是学徒制试点的重要文件。在实际运作
在中小城市博物馆建设量猛增的今天,中小城市博物馆室外景观存在的问题也日益凸显。探索中小城市博物馆景观设计方法是本文的重要研究目的。本文将十八届五中全会提出的“创
精细的室内三维测图已经成为支撑室内三维制图,室内定位导航及增强现实等应用的重要的技术手段。目前,常用的室内场景三维测图手段主要有激光扫描(Terrestrial Laser Scannin
在过去的若干年中,卷积神经网络(CNN)在图像分类和对象检测领域表现出众,并且具备良好的应用价值,尤其在计算机视觉方面的应用已经取得了一系列显著的成果。从生物识别系统到
压缩感知理论是建立在矩阵分析、概率统计、泛函与拓扑分析等基础学科之上的一种新的信号采样与处理理论,它基于信号的先验稀疏特性,在采样信号的同时实现了数据的压缩。采样
消防事业对维护社会安全稳定、促进社会不断进步发展有着重要的作用。随着科技的进步,我国消防事业正不断向智能化、自动化方向发展。火灾自动报警系统在消防中的应用逐渐广泛
等几何分析方法是实现几何设计模型与分析模型无缝对接的一种新型有限元技术,该方法采用计算机辅助几何设计中用于描述几何的样条基函数替换传统有限元分析的形函数,从而避免
提出了处理无耗正切关系网络测量数据的统计回归数学模型。在计算机辅助分析下,用此模型处理大、中、小反射情况下的测量数据。结果表明,此数学模型是正确的。这个模型为测量