基于主题模型的多标签文本分类和流文本数据建模若干问题研究

被引量 : 0次 | 上传用户:kaezhu1111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本数据是普遍存在的一种数据类型,如何分析文本并提炼有用的信息具有重要的意义。主题模型是现今最有效的文本分析算法族之一,本文基于主题模型,研究两个亟待解决的文本分析问题:多标签文本分类问题和流文本数据建模问题。多标签文本分类:本文针对现存有监督主题模型存在模型可扩展性较差,没有考虑标签相关性,标签出现频率和词项的标签频率等问题,提出一些改进算法,包括SL-LDA模型,LSTM算法,FLDA模型,DFLDA模型和CPTM算法。实验结果表明,相比常用的经典分类算法,所提出算法的多标签分类性能更优;特别地,所提出算法对于偏斜文本集的分类性能有所提升。流文本数据建模:本文针对现存主题模型在线学习算法存在随机梯度误差较大,需要手动设定学习速率和主题采样的时间复杂度较高等问题,提出一些改进算法,包括MASVI算法,自适应学习速率算法和SHVG算法。此外,提出了在线版本的期望传播算法。实验结果表明,所提出算法的文本建模性能更优,且在多数情况下收敛速度更快。
其他文献
美联储,美国联邦储备系统的简称,作为美国的中央银行旨在为美国提供一个更安全、灵活、稳定的货币和金融体系。货币政策则是美联储对美国经济进行宏观调控的主要政策手段。美联
本文重点阐述幼儿教师的专业能力——移情。首先从幼儿的特殊性、打破传统文化与传统儿童观对儿童束缚的需要及移情在幼儿教育中的重要性三个方面论述幼儿教师必须具备移情能
随着医改的不断深入,很多大中型公立医院通过联合兼并等模式成立了医院集团。由于我国并没有出台相关法律来规范这一行为,目前医院集团化管理存在很多问题,尤其在财务管理方面问
作为国家调控宏观经济的手段之一,货币政策是央行为了实现特定的经济目的而采取的各种调节控制货币供应量金和信贷规模的方针措施的总称。随着各国货币当局对货币政策研究的
目的:通过分析18F-FDG PET/CT在PCNSL中诊断效能,评价18F-FDGPET/CT在PCNSL诊断方面的临床应用价值,为PCNSL的早期诊断提供科学规范的手段。方法:1、病例来源于在本院行18F-FDG P
在大型柴油加氢装置上对FH-5A型精制催化剂的性能进行了考察。结果表明,由不同比例的重油催化柴油、焦化柴油和高含硫直馏柴油组成的多种混合原料,在缓和的反应条件下,采用FH-5A
膨胀土边坡失稳是膨胀土地区一种最常见的斜坡变形现象,产生的病害对工程建设有着巨大的危害和影响,膨胀土边坡的稳定性分析和整治是岩土工程界最为棘手的问题之一。本文以牧
目的:建立壮腰健肾小蜜丸的质量标准。方法:建立牛大力、黑老虎、鸡血藤和金樱子的薄层鉴别方法和原儿茶酸的高效液相色谱含量测定方法,用十八烷基硅烷键合硅胶为填充剂;柱温:室温
目前汽车行业的盈利模式已从整车制造、零件加工、销售服务等传统环节逐步向金融服务相转移,央行预测未来2015年汽车消费信贷总额将超过2300亿美元,因而有关我国汽车金融信贷风
目的:胃癌是全球危害人类健康的主要的恶性肿瘤之一,2014年全球新生病例约110万人(不包含未就诊患者),仅在中国,2014年新发病例为49万,占全球新发胃癌病例总数的44.6%;胃癌的发生与幽