基于非对称先验的作者主题模型

来源 :浙江大学 | 被引量 : 0次 | 上传用户:chad
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一个能同时分析文档主题和作者兴趣的概率图模型Asymmetric-prior Author Latent Dirichlet Allocation (AALDA)。互联网技术的发展给文本分析提出了很大的挑战。在搜索引擎优化,图书馆文本索引上,如何去处理海量的文本数据是学术研究热点之一。生成式模型(Generative Models)是分析文档内容的主流工具,它不仅可以提取大文本数据的结构信息,而且可以推测出新的文档的主题概率分布。其中以潜在狄利克雷分配(Latent Dirichlet Allocation)为代表的主题模型(Topic Models)利用多层次贝叶斯模型把文档表示成多个主题的概率混合。引入隐藏随机变量简化了原始似然函数。通过期望-最大似然估计(Eepectation-Maximization)算法,首先在期望步骤估计出隐藏随机变量的后验概率。在最大化似然函数的步骤中,估计出模型中重要的参数。其中包括主题在所有单词表上的概率分布,文档的主题混合概率。本文中主要推导了LDA模型中如何在期望估计步骤中用Gibbs采样(Gibbs Sampling)来估计隐含随机变量的后验概率。然后介绍了基于非对称先验的LDA。经过对中间文档主题随机变量的积分,它与词语主题选择随机变量z构成了波利亚分布(Polya Distribution)。这个分布于波利亚罐模型相对应,在原本确定主题个数的情况下,使得单词的主题选择随机变量有聚类的效应。新的模型把原始LDA中先验的均匀分布作为一个不确定的参数,并用极大似然来估计。为了快速优化波利亚分布的参数,避免二次Gibbs采样造成迭代次数的平方倍数的增长,本文使用了Minka的不动点优化算法。最后本文提出了如何使用非对称先验来同时分析文档的主题和作者主题兴趣的模型AALDA.在这个模型中,每个作者都被赋予了一个非对称先验,用来捕捉文档中作者对单词的偏好,以此来反映出作者的哪些主题感兴趣。该模型在Neural Information Process Systems会议(NIPS) 90年代论文数据上取得了良好的效果。从结果来看,模型分析出了当时NIPS会议上有哪些热点讨论话题和几个著名学者主要研究哪些话题。而且,作者的主题兴趣的稀疏性也符合我们的先验知识。通过对似然函数和困惑度的计算,新的模型较LDA提高了模型的推广能力。
其他文献
随着无线通信、嵌入式计算机和传感器等技术的快速发展,具有感知能力、计算能力和无线通信能力的微型传感器以及由其构成的无线传感器网络引起了人们极大的关注。目标跟踪实质
目前,计算机网络安全领域正面临着严重的挑战,木马、病毒、蠕虫等各种网络攻击行为正严重威胁着广大用户的数据和信息的安全。其中,木马攻击技术不断变化,已经造成了严重危害
学位
随着网络技术的迅速发展和网络需求的日益扩大,一个可信、安全、稳定的网络管理系统己经成为网络正常运行的关键。如何发现完整的网络拓扑结构并建立有效的网络拓扑模型,对现
现有网络管理方案面临的一个问题是缺乏统一的管理流程,包括功能流程和业务流程。另一个问题是基于SNMP的网络管理系统通常采用集中式网络管理模型,不适合应用于较大规模的网络
安全协议是实现安全的分布式系统的基础,所以保证其正确地工作至关重要。不幸的是,安全协议的设计存在一些非常微妙的细节,很难保证在设计过程中就能发现可能存在的漏洞。为
序列图像中的运动目标检测是计算机视觉与模式识别领域方兴未艾的课题之一,该技术在机器人导航、智能视频监控系统以及视频图像分析等领域均有广泛应用。本文围绕运动目标检测
交通标志识别(TSR)系统是智能车辆的重要组成部分,它在车辆行驶过程中对出现的交通标志信息进行采集和识别,可及时地向驾驶员做出指示或警告,以保持交通通畅和预防事故的发生。
以Internet为基础的全球互联网对人们的生活产生了巨大的影响,随着互联网的发展,其开放性、共享性和互联程度不断扩大,网络的重要性和对社会的影响也越来越大。而网络安全问
随着云计算、数据中心、虚拟化逐渐深入并影响着信息化进程,高端容错计算机扮演着越来越重要的角色,高端容错计算机系统对可用性有很高的要求,因此对评测高端容错计算机可用