论文部分内容阅读
本文提出了作者主题演化模型(Author Topic over Time),简称AToT模型,用于发现作者研究兴趣变化情况。与LDA模型类似,AToT模型本身是一个概率主题模型,可以模拟一篇文档的生成过程,它既然可以生成文档,就可以处理研究者想要的关于文档的任何一种信息。AToT模型基本思想是三个分布,分别是作者主题分布,主题词项分布,以及时间贝塔分布。在具体的模型生成过程和训练中,需要估计三个关键分布的参数,这是AToT模型生成过程的逆过程,即已知生成的文档,通过采样方法进行参数的推断。已知模型的参数后,就可以训练模型进行新样本的推断。模型通过发现作者与主题间的对应关系,以发现科研作者的研究兴趣,以此在海量文献中总结研究者在不同领域的科研成果。在生成过程中引入了时间戳,记录作者研究该主题的时间,以发现作者兴趣的变化情况。实验表明,模型可以完成发现作者研究兴趣演化的任务,同时也可以完成主题推荐任务。