面向多源文本的主题聚类方法研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:minggangju
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,互联网中涌现出了海量的文本数据,如何从这些文本数据中挖掘有价值的主题信息是文本挖掘领域中重要的研究内容。该领域中的文本聚类算法因其自动化处理能力较高,常被用来发现大数据中的热点主题以及事件。传统的文本聚类大多面向单个来源的文本集,但随着文本信息平台的增多,仅对单源文本集进行主题聚类分析已不满足时代的需求,文本聚类开始重视对多源文本集的主题聚类分析。多源文本数据集的结构复杂,根据不同源的主题信息差异,本文将其总结为异源异构性、异源差异性以及异源相似性。传统的聚类方法无法直接应用于多源文本数据集,是因为这些复杂结构使得用户在聚类前难以设定一个较为准确的主题个数,也会在聚类过程中带来主题混淆问题。因此,如何解决由复杂结构带来的这些问题是一个研究难点。另外,多源文本数据集中包含了大量短文本,如何解决特征稀疏问题也是一个研究难点。针对复杂文本结构带来的问题,本文在狄利克雷多项式分配模型(DMA)的基础上提出了层次狄利克雷多项式分配主题聚类模型(HDMA)。一方面,HDMA模型结合DMA的优点,降低了对预先设定的主题个数的依赖,能在聚类过程中自动估算每个数据源中的主题个数。另一方面,HDMA模型为每个来源的主题信息提供了独立的参数空间,可以防止不同来源的主题信息互相干扰带来的主题混淆问题。实验证明,HDMA模型对多源文本数据集有良好的聚类效果。针对特征稀疏的问题,本文在HDMA模型的基础上,提出了一种具有潜在特征的层次狄利克雷多项式分配主题聚类模型(LFHDMA)。该模型添加了关于语义的潜在特征矩阵,借助由大规模语料库训练的单词向量为文本集提供了额外的语义信息,降低了特征稀疏对聚类的影响。实验表明,LFHDMA模型进一步提升了对多源文本数据集的聚类效果。
其他文献
本研究以贵州省贵阳市开阳县城关镇东山村为研究区域,通过田间稻油轮作试验研究12种调理剂对Cd污染稻田土壤pH、有机质、Cd各赋存形态、水稻和油菜迁移转运及产量的影响,旨在筛选出能有效阻控土壤中有效态Cd及水稻、油菜迁移转运的调理剂,以期为贵州省喀斯特地区稻田Cd污染土壤修复治理提供参考依据,为贵州省水稻油菜作物安全生产提供技术指导,主要研究结果如下:(1)施用12种调理剂可明显提升水稻季和油菜季土
腐乳作为中国传统发酵食品,有着独特的风味,其质地柔糯、营养丰富,含多种人类必需氨基酸。目前,对腐乳品质的研究大多以感官评价为主,其受主观因素的影响,对品质的判定存在差异,无法实现数值化腐乳品质指标。腐乳的质构特征能直观体现腐乳的品质,为量化腐乳品质指标,提升腐乳生产品质,研究通过探究白坯含水率、盐坯含盐量、白坯间距、发花温度、发花湿度、发花时间、腌制时间、接种量、发酵温度9个单因素对风味腐乳坯体质
随着人们生活条件的不断发展,人们对于水稻的产量不仅有所需求,同时也对其稻米品质要求有所提高,因此,培育出产量高并且稻米品质较优异的品种日益受到重视。CRISPR/Cas9编辑技术可对个别性状定向改良,从而获得性状极优的品种。香型优质稻大粒香稻米品质优异,外观靓丽,气味清香,深受消费者喜爱,但同时存在易感稻瘟病的特点,改良其稻瘟病抗性且又保持大粒香优异的米质是本试验要达到的目的。本研究利用CRISP
碳纤维增强尼龙6(CF/PA6)复合材料具有相对密度小、比强度大、比模量高等特点,在航空航天、交通运输、防腐设备、体育器材等领域得到广泛应用。但CF表面光滑且呈化学惰性,导致CF/PA6复合材料界面粘接性能差而限制其应用范围。因此,通过在纤维表面涂覆含活性官能团的上浆剂,增强CF与PA6的界面强度,提高CF/PA6复合材料的力学性能。本文通过三乙烯四胺(TETA)、双酚A二缩水甘油醚(BADGE)
小麦条锈病是危害小麦产量和品质最严重的病害之一。抗条锈病品种的选育是当前防治小麦条锈病最为经济、安全、有效的方法。对贵协3号多年多点的抗病性鉴定发现其对条锈病流行小种CYR34表现为免疫至近免疫。为了对贵协3号携带的抗条锈病基因进行定位,本研究以贵协3号和高感条锈病品种Avocet S(AVS)进行杂交,构建了重组自交系(RIL)群体。运用集群分离分析法结合转录组测序(BSR-Seq)、以及小麦5
稻田种养是人类通过传统的稻田养鱼发展稻至今为稻渔综合种养,又根据水产品的生活特性,开挖不同的稻田工程,如双埂大边沟、垄稻沟坑、平板模式,形成良好生态循环系统,稻、鱼相辅相成,相得益彰,形成了稻田综合种养。可养品种有鲤、克氏原螯虾、蛙、鳖等水生生物。2017-2019年间在播州区通过双埂大边沟、垄稻沟坑、平板模式三种模式开展稻田种养,田间试验、实验室检测、问卷调查、查阅相关资料可得:双埂大边沟稻鱼种
贵州省山清水秀,环境条件好,气候条件适宜多种特色珍稀食用菌生长。贵州省将食用菌产业列为农村产业结构调整、脱贫攻坚的“五大”发展产业,食用菌产业也得到长足发展。但是,目前对贵州省主要栽培食用菌中重金属元素的含量与健康风险评价的研究依然较少。本研究从贵州省黔西南州,遵义市和毕节市62家种植食用菌的企业中抽取了5种栽培食用菌及其栽培基质,使用电感耦合等离子体质谱仪和原子荧光分光光度计测定其中的铅(Pb)
磷石膏作为生产磷酸和磷肥的工业固体废弃物,我国磷石膏年产出量和累积存量巨大,对生态环境和磷化工企业的可持续发展造成了严重威胁。随着国家大力提倡和督促磷石膏的资源化利用,我国磷石膏年利用率逐年上升,但目前也仅为40%,每年仍有超过一半以上的磷石膏未得到妥善处置,其造成的危害并未得到实质性缓解。基于此,本文提出利用磷石膏制备装配式磷石膏-混凝土组合墙板,应用于钢结构建筑领域,并对其抗震性能开展研究。首
论文对XEN虚拟机内存安全隔离的理论和方法进行了研究。在分析云计算,虚拟化技术的理论与方法及安全架构模型基础上,深入分析Xen虚拟化原理和Flask安全框架的相关理论与技术,针对当前云计算、虚拟化技术所面临的安全风险,特别是访问控制的安全性问题,提出一种基于内存安全隔离与身份认证的方法,以有效防护因访问带来的安全风险,为云计算的可靠运行提供一种安全有效的保护模式。论文首先介绍了Xen内存虚拟隔离,
通过将高特异性抗原抗体或核酸适配体与比色法相结合而构建的比色分析模式,具有特异性高、可视化、响应速度快、操作简单等优点,已成为检测生物分子的主要分析方法之一。为提高检测灵敏度,信号放大技术在比色传感器的构建至关重要。本文旨在结合比色传感技术和酪胺信号放大、酶辅助信号放大及无酶信号放大等策略,构建几种新型比色传感分析模式实现对肿瘤标志物的检测,提高分析的灵敏度,降低检测限。本文主要研究内容如下:第一