论文部分内容阅读
随着信息技术、互联网和数据库技术的发展,人们积累的数据不断增加,信息泛滥问题日益严重。如何从大量的数据集中发现用户感兴趣的热点主题以及这些主题随时间发展演化的情况,逐渐成为这个信息爆炸时代的重要问题。搜索引擎的出现为人们从海量的存档数据中快速检索和寻找有用信息提供了一种有效途径。然而,搜索引擎所返回的搜索结果往往是零碎的非结构化的信息,它不能反映整个主题随时间发展演化的情况。随着以LDA为代表的概率主题模型的出现,各种主题发现和演化的研究大量涌现,为解决热点主题的发现和主题随时间的演化等问题提供了很好的途径。近十年来,概率概率主题模型的研究越来越受到数据挖掘和知识发现领域研究者的重视,相关研究成果也在文本、图像和视频数据处理上获得了广泛的应用,取得了不少进展,但也存在一些问题。例如,各种概率主题模型的对比分析、归纳总结的综合性分析还很少出现;在科研文献的主题发现和演化分析研究中,利用结构化的数据中的多种信息源来发现主题和跟踪主题的演化研究方面还不够深入;跟踪不同主题之间的相互演化的研究还未出现;概率主题模型在交通视频的运动模式发现和异常行为检测上的应用还很不完善。针对这些问题,本文首先对各种概率主题模型中的典型模型进行了综述分析和对比研究;在此基础上,针对科研文献数据中广泛存在的多源结构化信息,提出了一种内容和引用信息相结合的概率主题模型,并应用到科研文献的主题发现和跟踪中;其次,提出了一种新的基于随机游走模型的主题演化图构建算法,解决了不同主题之间的演化问题;最后,提出了一种两层结构的非参数化的概率主题模型,并应用到交通视频中的运动模式识别和异常行为检测中。论文的主要工作和研究成果如下:(1)对最新的各种不同类型的概率主题模型进行了综述分析。首先根据模型对时间变量处理的特点,将其分为三类典型模型——离散时间主题模型、连续时间主题模型和在线式的主题模型。其次,分别对这三类模型的特点进行了总结,并选取每类模型中的典型模型进行了详细的分析,包括模型的建模过程、模型特点以及各种模型的优缺点。针对各类概率主题模型的对比实验问题,分析了模型性能比较的各种可能方法,并总结了两种有效的性能指标——困惑度值和sKL散度值。分别对三类主题模型中的典型模型,在两个典型的科研文献数据库上进行了对比实验研究,通过对比实验验证了综述分析中对各种模型特点的分析。(2)提出了一种Citation-Content-LDA主题模型,该模型在一个概率主题模型中综合利用文档的文本信息和文档之间的引用信息来进行主题的建模。该Citation-Content-LDA模型是一种两层的主题模型,其分别利用引用信息来生成“父主题”和文本信息生成“子主题”,在此基础上还实现了主题跟踪算法,并利用吉布斯采样算法来求解模型的参数。通过在两个典型的科研文献数据集上的对比实验研究,验证了该模型的有效性和优越性。(3)提出了一种基于主题分割和主题关系度量的主题演化图的构建算法。针对不同主题之间的演化问题,在Citation-Content-LDA模型发现的主题的基础上,利用主题中文档的时间信息进行主题的分割,解决了主题对齐的问题;提出了一种基于随机游走的主题关系度量算法,借鉴PageRank算法的思想,建立主题之间关联关系的有向无环图,并通过对图的随机游走遍历实现了主题之间关系的概率度量,最终实现了不同主题之间演化关系图的构建算法。通过在两个典型的科研文献数据集上的实验,分别得到了这两个数据集上不同主题之间的演化图。(4)提出了一种非参数化的两层结构的主题模型,应用于交通视频数据的运动模式识别和异常行为检测。该两层结构的非参数化的主题模型能够自动确定每层的主题数量,可分别提取出交通视频中的局部主题(视觉活动)和全局主题(交通模式)。提出了一种基于该两层模型的似然函数的视频异常行为检测算法,在交通视频异常行为检测中取得了比现有方法更好的结果。