面向用户偏好的半监督文本结构分析方法研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:ycmk07js2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,网络上的数据大量增加,这些数据包括文本、图像、音频、视频等多种类型,但是大多数数据仍以文本的形式存在。文本数据是承载人类知识的最主要媒介,所以更好地掌握文本数据的组织结构以从中抽取有用的信息与模式对整理、保存和传播人类知识具有重要意义。主题模型是一类通过发现文本数据下潜藏的主题信息来呈现文本数据组织结构的机器学习模型。当前,应用领域最广泛的主题模型是隐含狄里克莱分布(Latent Dirichlet Allocation, LDA),针对LDA作为一种无监督机器学习模型而不能利用监督信息的问题,许多学者基于LDA提出了一系列监督和半监督的主题模型。  当前大部分基于LDA的有监督主题模型使用的监督信息是加标签的文档或成对文档,但是这两种形式的监督信息不仅难于获得、缺乏可操作性,而且反映的多是先验领域知识,极少考虑用户的兴趣与偏好,这种忽视用户需求的做法违背了当前每个应用和服务都重视个性化体验的潮流。基于此,本文将用户偏好作为文本结构分析方法的监督信息,以满足用户的个性化需求。  为了解决当前文本结构分析方法所使用的监督信息既难于获得且缺乏可操作性又不能很好的反映用户偏好的问题,本论文提出使用用户感兴趣的词和用户不感兴趣的词作为监督信息。在实际操作中,获得用户感兴趣的词和用户不感兴趣的词要比为文档加标签和寻找成对文档简单而可行的多,并且这些词能自然地反映用户的兴趣和偏好。鉴于监督信息量的多少对有监督机器学习模型的性能有很大影响,且用户能提供的监督信息较少,所以本文设计了一个监督信息自学习算法,以便在尽可能保证质量的前提下扩充监督信息的量。为了能在文本结构分析过程中有效地利用监督信息,本文提出了一个名为user-orientedLDA的半监督主题模型,一方面,通过在LDA的生成图模型中引入相关变量和参数,得到了一个具有降噪能力的生成图模型;另一方面,在简单波利亚罐子模型的基础上提出了增强的波利亚罐子模型,并将其思想引入到模型的Gibbs抽样参数推断过程中,以使用户的偏好在参数推断中起作用。实验结果表明,本文所提出方法的文本结构分析能力优于其他同类方法。
其他文献
MPLS(多协议标签交换)作为ATM与IP结合的产物继承了IP技术的灵活性,可扩展性,同时利用现有的二层硬件交换技术(如ATM,FR等)提供了对流量管理和VPN(虚拟专用网)的支持,具有QoS
随着互联网技术的发展,电子邮件在人们生活中扮演着越来越重要的角色。但电子邮件给人们带来极大便利的同时,也日益显示出其负面影响,那就是随之而来的各种或推销广告或包含不良
本文以某冶炼铸造厂ERP(企业资源规划)系统的实际开发与应用为研究课题,根据系统运行过程中出现的问题和当前物料管理的需求,从业务功能和程序设计两个方面,对该厂原有物料管理
终身学习、异质化学习的新观念兴起了自主学习、非学历教学的热潮,而日益进步的远程教学通信技术带来了极其丰富的共享课程资源和现场感强的远程实时教学模式。由此引出了学习
Web服务技术为跨网络应用集成及构建复杂的业务流程提供了最佳实践,但基于XML的服务描述缺乏相应的语义信息,而当前的关于语义Web服务的研究大多集中于服务的功能性接口语义
容灾备份对于重要系统具有不可替代的重要性。目前的容灾系统大多采用诸如NAS,SAN这样的存储备份技术,NAS技术仅适合于本地存储,不适于远距离异地备份,而SAN的备份距离仅为几
本文在研究了传统的LEACH协议的基础上,通过利用粒子群算法对LEACH协议中的网络分簇阶段进行改进,将网络分簇的过程移到汇聚节点上进行,采用粒子群算法不断的迭代将网络分成规模
生物信息学是一门综合利用生物学、计算机科学、数学等学科知识的新兴交叉学科,其主要任务是揭示海量生物学数据中蕴含的生物学意义、探索生命活动的奥秘。全基因组DNA序列拼
浏览器扩展程序可以丰富浏览器的功能,使用户对浏览器进行个性化的定制,同时也带来一些安全问题。浏览器扩展程序一般使用脚本语言通过调用浏览器提供的API来实现功能,由于它
随着互联网的迅速发展,信息量也呈爆炸性的增长,如何有效的寻找到自己所需的资讯,已经成为急需解决的问题。即使是使用最强大的搜索引擎,所得出的检索结果也包含着许多与用户所要