论文部分内容阅读
在大数据时代,网络上的数据大量增加,这些数据包括文本、图像、音频、视频等多种类型,但是大多数数据仍以文本的形式存在。文本数据是承载人类知识的最主要媒介,所以更好地掌握文本数据的组织结构以从中抽取有用的信息与模式对整理、保存和传播人类知识具有重要意义。主题模型是一类通过发现文本数据下潜藏的主题信息来呈现文本数据组织结构的机器学习模型。当前,应用领域最广泛的主题模型是隐含狄里克莱分布(Latent Dirichlet Allocation, LDA),针对LDA作为一种无监督机器学习模型而不能利用监督信息的问题,许多学者基于LDA提出了一系列监督和半监督的主题模型。 当前大部分基于LDA的有监督主题模型使用的监督信息是加标签的文档或成对文档,但是这两种形式的监督信息不仅难于获得、缺乏可操作性,而且反映的多是先验领域知识,极少考虑用户的兴趣与偏好,这种忽视用户需求的做法违背了当前每个应用和服务都重视个性化体验的潮流。基于此,本文将用户偏好作为文本结构分析方法的监督信息,以满足用户的个性化需求。 为了解决当前文本结构分析方法所使用的监督信息既难于获得且缺乏可操作性又不能很好的反映用户偏好的问题,本论文提出使用用户感兴趣的词和用户不感兴趣的词作为监督信息。在实际操作中,获得用户感兴趣的词和用户不感兴趣的词要比为文档加标签和寻找成对文档简单而可行的多,并且这些词能自然地反映用户的兴趣和偏好。鉴于监督信息量的多少对有监督机器学习模型的性能有很大影响,且用户能提供的监督信息较少,所以本文设计了一个监督信息自学习算法,以便在尽可能保证质量的前提下扩充监督信息的量。为了能在文本结构分析过程中有效地利用监督信息,本文提出了一个名为user-orientedLDA的半监督主题模型,一方面,通过在LDA的生成图模型中引入相关变量和参数,得到了一个具有降噪能力的生成图模型;另一方面,在简单波利亚罐子模型的基础上提出了增强的波利亚罐子模型,并将其思想引入到模型的Gibbs抽样参数推断过程中,以使用户的偏好在参数推断中起作用。实验结果表明,本文所提出方法的文本结构分析能力优于其他同类方法。