论文部分内容阅读
在以信息化、数字化和网络化为特征的21世纪里,海量的文本数据正在从各个方面以各种形式深层次地影响着我们的生活。如果说Google、Baidu等搜索引擎通过帮助我们从海量文本中准确地查找相关的文本而带来了人们利用文本信息的第一次革命,文本挖掘则通过从海量文本中挖掘出新的知识帮助人迅速理解海量文本带来了人们利用文本信息的第二次革命。文本聚类是文本挖掘两大重要研究问题之一。文本聚类根据文本的内容的相似性将文本集合归为若干个“类”。文本聚类将理解海量的文本的过程从“以单个文本为单位逐篇理解文本集合内各文本”的过程简化为“以文本类为单位逐个理解文本集合内各个主题”的过程。一个文本类代表了一个统一的主题内容,可以帮助人们快速理解海量文本集合的内容,也可以被其他文本处理方法进一步挖掘和利用。然而传统的文本聚类方法主要关注如何将文本集合归类,而对文本类本身的研究却只有初步的尝试。主题建模利用贝叶斯概率模型为“主题”、“主题间关系”等抽象概念建立明确的模型,并利用近似概率推理方法从文本数据中挖掘出这些抽象概念,弥补了文本聚类研究领域内对文本类本身研究的不足。主题建模方法以其出色的对高维数据的降维能力,对真实世界中复杂系统的建模能力以及灵活易扩展的模型设计方法,成为文本挖掘领域近年来的一个热门研究方向,并在图像处理、金融、软件工程等众多领域得到了广泛的应用。本文正是基于以上的背景,对主题建模研究中若干关键问题进行了研究,并尝试了主题建模方法在其他研究领域的应用。主要工作内容和创新点体现在以下几个方面:主题模型设计的研究。树状层次化主题关系[3]和有向无环图主题关系[4]的引入增强了主题模型对复杂文本生成过程的建模能力。然而本文的研究工作表明,这类复杂的主题模型内部随机变量之间存在的相关性使得某些常用的近似概率推理算法(Gibbs抽样算法)收敛速度慢,容易陷入局部最大点,导致算法无法挖掘出文本数据中蕴含的语义。针对这个问题,我们提出了一个新的随机过程:嵌套的层次化Dirichlet过程(nested hierarchical Dirichlet process),并基于该随机过程提出两个层次化主题模型。我们的理论分析和实验表明,在这两个主题模型中的引入“亚主题”和“层次映射”的概念,有效解决了随机变量间的相关性带来的模型推理的困难。近似概率推理方法的研究。由于主题模型的复杂性,主题模型的精确推理超过了现有的计算能力。马尔可夫链蒙特卡罗(Markov chain Monte Carlo)方法是一种广泛使用的主题模型的近似推理方法。利用MCMC方法进行的主题模型的推理过程就是运行Markov链直至其收敛到主题模型定义的各隐含随机变量的联合概率分布的过程。MCMC方法的收敛速度决定了主题建模处理海量文本的能力。然而由于一些主题模型中大量随机变量之间复杂的关系,一些MCMC方法收敛速度很慢。本文提出的ASM抽样算法是MCMC方法的一种。ASM抽样算法能够在运行的过程中充分利用Markov链当前状态内所有的信息动态调整转移矩阵,提高收敛速度。实验表明,相比现有的类似算法,ASM抽样算法能够在更短的时间内收敛到更好的结果。主题模型在移动建模中应用的研究。主题建模不仅是文本处理领域近年来热门的研究方向,也在其他研究领域得到广泛的应用。移动建模是移动计算中一个重要的研究问题。移动建模为无线网络用户的移动方式建模,解决用户的移动性带来的如资源部署、路由协议设计等各种难题。在移动建模研究领域存在一种特殊的数据,即通过各种移动设备,如手机、车载GPS、无线通信网络等记录下的移动用户在环境中留下的一连串的轨迹记录(trace log)。这些轨迹记录和文本数据一样具有高维度、数据量大、内部蕴含复杂的模式的特点。传统的移动建模方法大都采用以Markov模型、隐Markov模型为代表的时序模型。我们指出在一些场景下非时序模型比时序模型更加适合用来挖掘用户移动行为背后的目的。我们首次提出了层次化的移动模式的概念,并首次将主题建模引入到移动建模研究领域中。实验表明我们提出的基于嵌套的Dirichlet过程混合过程的移动模型能比隐Markov模型获得更高的推广能力,利用主题建模方法挖掘出的移动模式也更容易为模型使用者理解。