深度贝叶斯话题模型研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ccll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
泊松伽马置信网络(Poisson Gamma Belief Network,PGBN)是一种贝叶斯深度话题模型,能够通过多层非线性网络,提取出数据的多层特征信息,在文本和图像数据上有较好的分类性能,但关于PGBN模型的应用探析工作很少,因此对PGBN深度模型实用性的研究具有重要的意义,本文对网页文档实时处理应用进行研究。在PGBN模型提出之初,使用吉布斯推断方法求解参数,训练方式是批量学习(batch learning),我们组在PGBN模型的基础上提出了一种在线学习(online learning)方法,该方法使用随机梯度方法求解全局参数,吉布斯方法求解其余参数。该方法在模型训练时随机选取小数据集(minibatch)进行训练,收敛速度具有优势,但基于该训练方法的PGBN模型分类效果、特性以及实用性尚且不知,因此对基于在线学习方法的PGBN模型的研究具有重要的意义。本文以基于吉布斯推断方法的PGBN模型为基础,对基于在线学习方法的PGBN模型的分类效果和特性进行了研究,并通过编程实现对两种训练方法的PGBN模型进行应用探析。论文的主要内容如下:1.为研究基于在线学习方法的PGBN模型在文本和图像数据上的分类性能及特性,首先对基于吉布斯方法的PGBN模型深入研究,并进行文本和图像数据分类实验仿真,得到分类效果对比基准;然后对基于在线学习方法的PGBN模型进行深入的研究,并进行相同模型参数设置的文本和图像数据分类实验仿真,最后对实验仿真结果进行分析和讨论。2.利用三种不同的编程语言:C语言、MATLAB语言和Python语言对基于吉布斯方法的PGBN模型和基于在线学习方法的PGBN模型进行编程实现,其中C语言在执行效率上具有一定的优势,MATLAB具有很高的矩阵运算效率,Python具有很多功能强大并且简单的开源库,为模型的应用实现及扩展提供了很大的可能。在编程实现仿真实验中,对比和分析了两种不同训练方法的PGBN模型的时间和空间复杂度,并对使用Python语言实现网页文档实时处理应用的可行性进行了分析并讨论。3.在基于在线学习方法的PGBN模型的基础上,对使用Python实现的网页文档实时处理应用进行研究与分析。在该应用中,使用爬虫技术进行网页抓取获得网页文档数据,然后利用正则表达式进行冗余信息删除得到文档数据,最后在模型算法的实现中,使用Python的C extern接口将模型训练中复杂的模块使用C语言实现,进一步提升模型训练效率,增强实用性。
其他文献
近年来,我国高度重视“三农”发展,提出建设现代农业的伟大战略构想。渔业作为农业重要组成部分,加快现代渔业建设任重道远。渔业科技是现代渔业建设的根本动力,大力支撑和引
<正> 编辑同志: 贵刊1985年第3期刊载了《秦皮治疗天行赤眼》一文,笔者在临床中仿此法配合内服龙胆泻肝汤,取秦皮50克浓煎,过滤后外洗患眼,治疗天行
期刊
中国古代陶瓷纹样种类丰富、形式新颖,其中牡丹纹样以其华贵的外形、美好的寓意长久以来占据着陶瓷装饰的重要位置。经过历朝历代的发展,牡丹纹样分化出两种构图方式——图案
为了满足对于3D影像制作迅速增加的需求,3D摄像机应运而生。不同厂商甚至不同载体都纷纷推出具有3D摄像功能的产品,一时间各种原理不同、效果各异的3D摄像机风靡市场。本文结
目的探讨静脉穿刺植入临时心脏起搏器对临床抢救高度房室传导阻滞患者的临床意义。方法对我院近3年收治的各类原发或继发高度房室传导阻滞、三分支传导阻滞或有症状的严重窦
<正>陪伴孩子,并不是只是陪着玩玩,或者带孩子出去旅游下这么简单。那么,父母到底应该怎样陪伴孩子?资深教育专家陈钱林,把两个孩子送进世界名校攻读博士学位,我们来看一看他
由于综合利用技术还不够成熟,利用率不高,煤矸石弃置不用,带来了环境和社会问题,研究煤矸石自保温建材具有节能与环保双重意义。文章提出一种煤矸石页岩烧结自保温砌块的制备
目的:为湖南省生物医药科技创新和企业竞争提供服务以及生物医药产业发展的专利战略制定提供依据。方法:利用Patent EX专利管理软件数据库采集湖南省生物医药专利数据,采用专利
目的了解北京市密云县结核病控制工作纳入社区卫生管理现状,探讨社区综合医疗机构在肺结核防治中发挥的转诊追踪作用。方法收集并分析2009年1月至2011年12月社区卫生服务中心
矮塔斜拉桥作为一种介于连续梁桥与斜拉桥之间的新型桥梁,它的力学行为介于两者之间。借鉴斜拉桥中的拉索布置.针对不同布索方式的计算表明:矮塔斜拉桥的布索方式不同,将直接导致