监督学习的话题模型

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wenzheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
话题模型(Topic model)是目前流行的一种图模型(Graph model)的.其严格遵守贝叶斯概率框架,是一种完全的贝叶斯模型。话题模型作为一种产生式模型,具有非监督学习,能够利用大量的现有的互联网数据,学出的话题易于人类理解,能够发现文档集中隐含的语义的特点。是一种良好的聚类和降维工具。然而对于将话题模型应用分类问题,由于其非监督的特点,其学出来的话题并不一定有利于分类的进行,为此如何有效的加入监督信息也成为了研究热点。本研究旨在探索更多加入监督信息的方式。在本文之中,我们首先提出了一种用于多类分类的有监督学习的上游话题模型,其能够同时进行文档建模和分类。较之现有的有监督学习的话题模型,这个模型具有三个优势:1)类别是显示的作为关于话题的分布来建模的,其相当于为每个文档添加了一个非常强烈的先验分布,2)每个文档都明确的分解成对于类别而言的三种不同的组分,3)关于文档类标的推理是非常稀疏的,而这种稀疏性对于文档分类而言正是必须的。我们并将其应用与文本与图像分类。在随后的章节中,我们针对上游模型无法有效利用类间信息的缺点,提出一个将产生概率和监督学习信息联合起来的叫做LogisticLDA的模型,其用符合原则的方式从数学上将一个产生式模型和一个判别模型集成起来。通过使用logistic normal分布来最大化关于文档类标的后验概率,我们的模型有效的将监督学习信息集成进来以最大化话题空间的类间距离,同时仍旧享受文档之间可交换性所带来推理的容易性。在三个测验样例数据集上的实验结果表明,我们的模型表现结果超过现今流行的有监督学习的话题模型。相比于SVM,我们的模型也获得可以比较的结果,但它同时能够发现有利于降维,话题和文档索引挖掘隐藏的话题的空间。
其他文献
随着计算机网络的发展,用户接入Internet的带宽越来越大,然而受Internet两个固有特性传输延时和网络丢包的影响,接入带宽成比例的提升并不能带来同比例提升的吞吐率,因而如何
P2P网络是以计算机网络为基础,采用对等模式工作的覆盖网络。P2P网络把传统的C/S模式改为每个节点处于同等地位的对等模式,任何两个人通过此网络都能直接、对等的共享文件、传
据最新统计,随着网络技术的飞速发展和互联网宽带技术的普及,目前Internet上的流媒体应用,如视频点播、视频直播等已经成为了主流应用形式。P2P技术打破了传统的传输模型,没
人名消歧是信息检索、数据挖掘等领域非常亟需解决的问题之一。目前,学术界对于人名消歧的研究已经取得了显著的成果,提出了很多人名消歧的算法。但是由于应用的领域的不同,
随着互联网的普及,互联网安全问题显得越来越突出。如何及时发现、识别各种网络威胁并保证系统安全运行已经成为当前研究的关注点之一。入侵检测系统(Intrusion Detection Sy
网格中的数据管理以命名的透明性、位置的透明性、协议的透明性、时间的透明性为目标,建立一个网格环境下数据一体化访问、存储、传输、维护的环境。它面向底层屏蔽网格中的
当前在消化道的体内极端环境中,医患双方都迫切需要提供可操控的医疗检测用可吞服式微型诊查工具。本课题主要研究医用胶囊内窥镜在人体内的无线定位,并给出了定位系统硬件电
随着Internet的发展和网上信息的愈加丰富,人们越来越依赖于网络获取需要的大量信息,搜索引擎正是在这样的背景下应运而生。然而,作为通用的信息提供工具,面对海量的互联网信
蒙古文命名实体识别是蒙古文自然语言处理的基础课题,被广泛地应用于蒙古文信息抽取、机器翻译、文本聚类、信息检索等领域。而在蒙古文命名实体识别中人名所占的比例最大,其
RSS也叫聚合RSS,是在线共享内容的一种简易方式。传统的网络爬虫对实时性要求不是很高,但是RSS的特点是时效性强,为了向用户提供高时效性的个性化服务,服务器需要以最短的延