面向用户偏好的半监督文本结构分析方法研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户：ycmk07js2

【摘要】

：

在大数据时代，网络上的数据大量增加，这些数据包括文本、图像、音频、视频等多种类型，但是大多数数据仍以文本的形式存在。文本数据是承载人类知识的最主要媒介，所以更好地掌握文

【作者】

：

李晶

【机构】

：

贵州大学

【出处】

：

贵州大学

【发表日期】

：

2017年期

【关键词】

：

文本结构分析隐含狄里克莱分布自学习算法面向用户偏好机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在大数据时代，网络上的数据大量增加，这些数据包括文本、图像、音频、视频等多种类型，但是大多数数据仍以文本的形式存在。文本数据是承载人类知识的最主要媒介，所以更好地掌握文本数据的组织结构以从中抽取有用的信息与模式对整理、保存和传播人类知识具有重要意义。主题模型是一类通过发现文本数据下潜藏的主题信息来呈现文本数据组织结构的机器学习模型。当前，应用领域最广泛的主题模型是隐含狄里克莱分布（Latent Dirichlet Allocation, LDA），针对LDA作为一种无监督机器学习模型而不能利用监督信息的问题，许多学者基于LDA提出了一系列监督和半监督的主题模型。　　当前大部分基于LDA的有监督主题模型使用的监督信息是加标签的文档或成对文档，但是这两种形式的监督信息不仅难于获得、缺乏可操作性，而且反映的多是先验领域知识，极少考虑用户的兴趣与偏好，这种忽视用户需求的做法违背了当前每个应用和服务都重视个性化体验的潮流。基于此，本文将用户偏好作为文本结构分析方法的监督信息，以满足用户的个性化需求。　　为了解决当前文本结构分析方法所使用的监督信息既难于获得且缺乏可操作性又不能很好的反映用户偏好的问题，本论文提出使用用户感兴趣的词和用户不感兴趣的词作为监督信息。在实际操作中，获得用户感兴趣的词和用户不感兴趣的词要比为文档加标签和寻找成对文档简单而可行的多，并且这些词能自然地反映用户的兴趣和偏好。鉴于监督信息量的多少对有监督机器学习模型的性能有很大影响，且用户能提供的监督信息较少，所以本文设计了一个监督信息自学习算法，以便在尽可能保证质量的前提下扩充监督信息的量。为了能在文本结构分析过程中有效地利用监督信息，本文提出了一个名为user-orientedLDA的半监督主题模型，一方面，通过在LDA的生成图模型中引入相关变量和参数，得到了一个具有降噪能力的生成图模型；另一方面，在简单波利亚罐子模型的基础上提出了增强的波利亚罐子模型，并将其思想引入到模型的Gibbs抽样参数推断过程中，以使用户的偏好在参数推断中起作用。实验结果表明，本文所提出方法的文本结构分析能力优于其他同类方法。

其他文献

MPLS故障恢复模型研究

MPLS(多协议标签交换)作为ATM与IP结合的产物继承了IP技术的灵活性,可扩展性,同时利用现有的二层硬件交换技术(如ATM,FR等)提供了对流量管理和VPN(虚拟专用网)的支持,具有QoS

学位

MPLS标签分发协议故障恢复流量工程快速重路由CR-LDP

垃圾邮件智能过滤系统的设计与实现

随着互联网技术的发展，电子邮件在人们生活中扮演着越来越重要的角色。但电子邮件给人们带来极大便利的同时，也日益显示出其负面影响，那就是随之而来的各种或推销广告或包含不良

学位

粗糙集朴素贝叶斯算法滑动窗口特征选取邮件分类

ERP中物料管理系统优化的设计与实现

本文以某冶炼铸造厂ERP(企业资源规划)系统的实际开发与应用为研究课题，根据系统运行过程中出现的问题和当前物料管理的需求，从业务功能和程序设计两个方面，对该厂原有物料管理

学位

企业资源规划物料管理资源优化过程控制

基于资源约束的智能课程路径配置问题的研究

终身学习、异质化学习的新观念兴起了自主学习、非学历教学的热潮，而日益进步的远程教学通信技术带来了极其丰富的共享课程资源和现场感强的远程实时教学模式。由此引出了学习

学位

智能规划资源约束课程路径配置资源建模远程实时教学

Web服务多维度语义模型的实现研究

Web服务技术为跨网络应用集成及构建复杂的业务流程提供了最佳实践,但基于XML的服务描述缺乏相应的语义信息,而当前的关于语义Web服务的研究大多集中于服务的功能性接口语义

学位

多维度语义模型语义Web服务服务关系异构多本体开发工具

容灾系统中数据监控及远程异步重放方法

容灾备份对于重要系统具有不可替代的重要性。目前的容灾系统大多采用诸如NAS,SAN这样的存储备份技术,NAS技术仅适合于本地存储,不适于远距离异地备份,而SAN的备份距离仅为几

学位

数据备份容灾系统远程镜像Linux内核

基于无线传感器网络的数据融合技术研究

本文在研究了传统的LEACH协议的基础上，通过利用粒子群算法对LEACH协议中的网络分簇阶段进行改进，将网络分簇的过程移到汇聚节点上进行，采用粒子群算法不断的迭代将网络分成规模

学位

无线传感器网络LEACH协议BP神经网络数据融合

基因序列拼接算法的研究

生物信息学是一门综合利用生物学、计算机科学、数学等学科知识的新兴交叉学科，其主要任务是揭示海量生物学数据中蕴含的生物学意义、探索生命活动的奥秘。全基因组DNA序列拼

学位

生物信息学基因组DNA测序序列拼接并行处理

浏览器扩展程序不安全行为的识别

浏览器扩展程序可以丰富浏览器的功能,使用户对浏览器进行个性化的定制,同时也带来一些安全问题。浏览器扩展程序一般使用脚本语言通过调用浏览器提供的API来实现功能,由于它

学位

浏览器扩展程序行为分析图模型Firefox安全性

语义web环境中搜索引擎的研究

随着互联网的迅速发展，信息量也呈爆炸性的增长，如何有效的寻找到自己所需的资讯，已经成为急需解决的问题。即使是使用最强大的搜索引擎，所得出的检索结果也包含着许多与用户所要

学位

语义web环境搜索引擎语义网基石技术

面向用户偏好的半监督文本结构分析方法研究

与本文相关的学术论文