基于主题模型的多标签文本分类和流文本数据建模若干问题研究

被引量 : 0次 | 上传用户：kaezhu1111

【摘要】

：

文本数据是普遍存在的一种数据类型，如何分析文本并提炼有用的信息具有重要的意义。主题模型是现今最有效的文本分析算法族之一，本文基于主题模型，研究两个亟待解决的文本分析问

【作者】

：

李熙铭

【发表日期】

：

2015年期

【关键词】

：

主题模型多标签文本分类流数据在线学习随机优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本数据是普遍存在的一种数据类型，如何分析文本并提炼有用的信息具有重要的意义。主题模型是现今最有效的文本分析算法族之一，本文基于主题模型，研究两个亟待解决的文本分析问题：多标签文本分类问题和流文本数据建模问题。多标签文本分类：本文针对现存有监督主题模型存在模型可扩展性较差，没有考虑标签相关性,标签出现频率和词项的标签频率等问题，提出一些改进算法，包括SL-LDA模型，LSTM算法，FLDA模型，DFLDA模型和CPTM算法。实验结果表明，相比常用的经典分类算法，所提出算法的多标签分类性能更优；特别地，所提出算法对于偏斜文本集的分类性能有所提升。流文本数据建模：本文针对现存主题模型在线学习算法存在随机梯度误差较大，需要手动设定学习速率和主题采样的时间复杂度较高等问题，提出一些改进算法，包括MASVI算法，自适应学习速率算法和SHVG算法。此外，提出了在线版本的期望传播算法。实验结果表明，所提出算法的文本建模性能更优，且在多数情况下收敛速度更快。

其他文献

“格林斯潘时代”美联储货币政策评析

美联储，美国联邦储备系统的简称，作为美国的中央银行旨在为美国提供一个更安全、灵活、稳定的货币和金融体系。货币政策则是美联储对美国经济进行宏观调控的主要政策手段。美联

学位

艾伦·格林斯潘美联储货币政策

论幼儿教师的移情

本文重点阐述幼儿教师的专业能力——移情。首先从幼儿的特殊性、打破传统文化与传统儿童观对儿童束缚的需要及移情在幼儿教育中的重要性三个方面论述幼儿教师必须具备移情能

期刊

幼儿教师移情幼儿

Z公立医院集团化财务管理问题与对策研究

随着医改的不断深入，很多大中型公立医院通过联合兼并等模式成立了医院集团。由于我国并没有出台相关法律来规范这一行为，目前医院集团化管理存在很多问题，尤其在财务管理方面问

学位

集团化公立医院财务管理

货币变动对我国股票市场影响探析

作为国家调控宏观经济的手段之一,货币政策是央行为了实现特定的经济目的而采取的各种调节控制货币供应量金和信贷规模的方针措施的总称。随着各国货币当局对货币政策研究的

学位

货币变动MSIAH-VAR模型状态划分EGARCH模型非对称性

18F-FDG PET/CT在原发性中枢神经系统淋巴瘤中的诊断价值

目的：通过分析18F-FDG PET/CT在PCNSL中诊断效能，评价18F-FDGPET/CT在PCNSL诊断方面的临床应用价值，为PCNSL的早期诊断提供科学规范的手段。方法：1、病例来源于在本院行18F-FDG P

学位

原发性中枢神经系统淋巴瘤诊断价值体层摄影术发射型计算机脱氧葡萄糖

FH-5A型加氢精制催化剂在缓和反应条件下的性能考察

在大型柴油加氢装置上对FH-5A型精制催化剂的性能进行了考察。结果表明，由不同比例的重油催化柴油、焦化柴油和高含硫直馏柴油组成的多种混合原料，在缓和的反应条件下，采用FH-5A

期刊

加氢精制催化剂加氢脱硫加氢脱氮反应条件低硫柴油

h型抗滑桩的有限元分析

膨胀土边坡失稳是膨胀土地区一种最常见的斜坡变形现象,产生的病害对工程建设有着巨大的危害和影响,膨胀土边坡的稳定性分析和整治是岩土工程界最为棘手的问题之一。本文以牧

学位

膨胀土滑坡h型抗滑桩有限元分析

壮腰健肾小蜜丸的质量标准研究

目的：建立壮腰健肾小蜜丸的质量标准。方法：建立牛大力、黑老虎、鸡血藤和金樱子的薄层鉴别方法和原儿茶酸的高效液相色谱含量测定方法，用十八烷基硅烷键合硅胶为填充剂；柱温：室温

期刊

壮腰健肾小蜜丸原儿茶酸高效液相色谱法薄层色谱法牛大力黑老虎鸡血藤金樱子

关于我国汽车金融信贷风险管理的相关研究

目前汽车行业的盈利模式已从整车制造、零件加工、销售服务等传统环节逐步向金融服务相转移，央行预测未来2015年汽车消费信贷总额将超过2300亿美元，因而有关我国汽车金融信贷风

学位

汽车金融信贷评价风险管理消费信贷

目的：胃癌是全球危害人类健康的主要的恶性肿瘤之一，2014年全球新生病例约110万人（不包含未就诊患者），仅在中国，2014年新发病例为49万，占全球新发胃癌病例总数的44.6%；胃癌的发生与幽

学位

胃癌Luminex肿瘤标志物Protein Pathway Array

基于主题模型的多标签文本分类和流文本数据建模若干问题研究

其他学术论文