基于点间互信息的主题优化方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xzddlz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今世界,随着信息技术的不断进步,各类信息资源都以较快的速度增长并呈现出海量的特征,其中数据主要还是以文本的形式出现。信息量已经满足人们的需求,但是如何高效地管理并且使用海量数据成为目前迫切需要解决的问题,这促进了对文本分类相关领域的研究。文本分类技术研究的主要核心内容包括两个部分:分类模型和文本表示。目前文本表示方法可以分为两种类型,一种类型是引入语言学特征;另一种类型利用统计学方法挖掘出文本的主题信息。前者由于需要较为复杂的语言学特征处理从而降低了整个系统的效率,其实用性受到影响;后者的典型代表就是PLSA语义模型以及LDA语义模型。语义模型是一种基于统计学理论的概率模型,模型构建出“文档-主题-词汇”三层结构来得到数据集中的潜在语义(主题)。本文给出了基于点间互信息的LDA(Point-wise Mutual Information LatentDirichlet Allocation,PMI-LDA)主题模型和基于最近距离的LS(Laplace Score)主题选择算法。LDA模型不是判别模型,而是一个生成模型,在生成文本的过程中通过EM算法得到潜在的主题层。但是,在利用LDA主题模型生成文本的过程中,模型会同等对待文本中的每一个单词,这样会造成主题向高频词倾斜,同时还会造成主题重叠现象。本文的主要贡献有三点:首先,提出PMI-LDA主题模型,模型能够克服主题向高频词倾斜及主题重叠的问题,使得我们提取出的文本主题更能表征一篇文本。实验证明,本课题提出的算法是可行的。然后,本文还从两个角度来评价提取出主题的优劣,一是从主题一致性、可读性上来评价,从主题本身出发,根据主题所包含的单词的可读性和一致性,对主题的优劣进行评价;二是从模型中主题的区别能力和相似性上来评价,从整个模型出发,根据主题的相似性和区别能力来评价提取出的主题的优劣。从实验中可以清晰的看到,PMI-LDA主题模型提取出的主题,不管是在可读性、一致性上,还是在区别能力、相似性上都优于LDA主题模型提取的主题。最后,当使用主题作为文本的特征时,根据主题存在优劣的事实,不同的主题不应该同一而视,课题提出了基于最近距离的LS算法来计算主题的权值,并应用到文本分类中。
其他文献
带性能约束布局问题有着较为广泛的应用背景。如钢铁企业的板材切割(最大成材率约束),印刷电路板(PCB)的布局设计(最小权距积之和约束),航天器舱的布局方案设计(最小不平衡量约
随着计算机和网络技术的蓬勃发展,社会化媒体越来越受到广大网民的日益关注。近年来,微博作为一种新型的社会化媒体,已经得到了人们的广泛关注,许多国内外的重大事件都是通过它在
随着移动通信技术的迅速发展,网络带宽和终端设备处理能力的不断提高,已经在传统网络中广泛应用的P2P技术也逐渐渗入到无线通信领域。然而,移动网络因其拓扑结构易变、节点性能
随着智能信息化时代的到来,在日常生活中人们更多的关注与吃、住、行相关的服务信息,因此,智能设备就成为人们随时随地获得这些服务的便捷途径,而这些服务与位置紧密相关,如人们出
互联网开放平台大量涌现,OpenAPI的数量与日俱增,由其搭建而成的Mashup以低成本高价值的优势迅速风靡互联网。然而,如何使得没有开发经验的用户也可以参与个性化应用的搭建,并实
近年来,随着互联网技术的飞速发展,信息安全已成为亟待解决的问题。使用公钥密码体制是提高信息安全性的重要方法。硬件实现的密码系统由于其诸多优势成为新的研究热点。本文在
交互式问答系统需要对上下文的语境进行处理,才能使系统有更强的理解交互能力。问句的语义缺失现象是必要处理的核心问题之一。在交互式问答系统中,存在着大量的语义缺失的问句
随着数字海洋一期中对辅助决策系统的进一步研究,现已基本将整体框架建立完备,包括数据源:海洋台站和卫星采集的实时监测数据;传输网络:远海洋数据传输专线和近、中距离3G无线传输
随着社会的发展,人们对空中交通的需求量日益加大,与此同时,一些不合理的机场扩建和航班计划所引发的机场噪声问题却引发了非常大的社会矛盾,如何科学地展示机场噪声成为当前一个
云计算作为一种新兴的分布式计算模式,具有按需自助服务、资源共享、多种网络访问等特点,被广泛地应用于企业及机构。中小型企业通过借助云计算平台外包计算及存储企业数据,