基于LDA模型的作者兴趣发现研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:moowoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了作者主题演化模型(Author Topic over Time),简称AToT模型,用于发现作者研究兴趣变化情况。与LDA模型类似,AToT模型本身是一个概率主题模型,可以模拟一篇文档的生成过程,它既然可以生成文档,就可以处理研究者想要的关于文档的任何一种信息。AToT模型基本思想是三个分布,分别是作者主题分布,主题词项分布,以及时间贝塔分布。在具体的模型生成过程和训练中,需要估计三个关键分布的参数,这是AToT模型生成过程的逆过程,即已知生成的文档,通过采样方法进行参数的推断。已知模型的参数后,就可以训练模型进行新样本的推断。模型通过发现作者与主题间的对应关系,以发现科研作者的研究兴趣,以此在海量文献中总结研究者在不同领域的科研成果。在生成过程中引入了时间戳,记录作者研究该主题的时间,以发现作者兴趣的变化情况。实验表明,模型可以完成发现作者研究兴趣演化的任务,同时也可以完成主题推荐任务。
其他文献
现今,越来越多的嵌入式实时系统应用到各行各业中,给我们的生活带来很大便利。但这些系统正在变得日益复杂,并且对可用性、可靠性、安全性等非功能特性都有严苛要求。同时,由
为了满足日益复杂的空间任务发展需求,国际空间数据系统咨询委员会(Consultive Committee for Space Data System,CCSDS)提出了高级在轨系统建议(Advanced Oribiting Systems
  网格技术是近来计算机领域的一个研究热点。网格中计算资源的使用是网格研究中的一个重点。GT3是当前网格技术的一个中间件,也是面向服务网格技术事实上的标准。GT3用RSL
随着网络的普及以及新的应用如VoD,VoIP的出现,网络的突发业务流量急剧增加,使得基于传统的PSTN的流量特征不再适合当前网络流量的分析。由于自相似模型能够更加真实地描述网络
数据的插入、删除、修改和查询操作是数据库维护的主要工作,异构分布式数据库的数据维护工作因其异构分布而变得相当困难。随着Internet的迅速发展,研发基于Web的异构分布式数
当前,主流通用微处理器都已经实现了多核并行以及处理器核内的SIMD并行。多线程并行且每个线程尽可能地利用SIMD并行是充分开发此类微处理器性能的必然选择。多核多SIMD体系
  随着分布式运算架构在交通、银行、邮政等企业领域应用的不断发展,为实现处于分布环境下不同平台资源共享,企业越发需要一个统一系统管理和传输这些数据资源。数据交换系统
近年来,由于专家系统技术未能及时赶上Internet及其相关技术的发展,致使现有专家系统的开发在很多方面都存在较大的缺陷。专家系统开发技术应该充分利用Internet良好的分布并
本文通过对MPEG4技术的分析,采用面向对象内容的思想对视音频实时传输进行研究,涉及编解码、同步和传输,并重点对后两者进行了研究。在此基础上设计原型系统,实现了原型系统
  本文设计并实现了一个基于多模式匹配的网络包过滤引擎,该引擎实现了内容级别的数据包过滤,并采用专门设计的快速多模式匹配算法来解决效率问题。本文首先对防火墙架构、内