基于半监督DPMM的新闻话题检测研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:milai8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国信息化产业的高速发展对互联网技术创新提出了更高的要求,网络信息的暴涨给舆情挖掘带来了更多的挑战。话题检测与追踪是网络舆情挖掘的重要研究内容,话题检测能够把纷杂的新闻信息以话题为单位有效地组织起来,是进行舆情分析的有效方式。基于话题检测的无监督特性,其首选技术便是聚类分析,然而传统聚类算法存在聚类个数K值难以准确确定等不足。本文从新闻文本内在语义联系的角度出发,基于非参贝叶斯领域的基础模型—狄利克雷过程混合模型(DPMM)对新闻话题检测进行了研究,论文的主要工作如下:1.在研究分析一般DPMM模型的基础上,探讨了DPMM模型用于话题检测与分析的可行性,给出了应用于话题检测与分析的采样公式的推导过程,并采用逐层递进的算法获取到较为准确的聚类个数K值。2.引入少量热点特征词作为先验知识,基于组内信息的约束关系来引导自主聚类过程的进行,给出了DPMM半监督模型的构建过程,并通过分析文档词频的幂律分布和名词实体对话题的定位作用,给出了一种有效的热点特征词选择方法。3.基于DPMM半监督模型,研究分析了半监督表示方法的泛化能力,给出了LDA半监督模型的构建过程。针对数据不平衡性导致结果话题存在融合这一现象,给出了一种基于OPTICS密度分析的结果优化方法。本文采用了TDT4标准语料和互联网新闻语料对所给方法的性能进行了实验验证。实验结果表明,本文给出的DPMM半监督模型在自动确定聚类个数的同时,有效地提升了话题检测的性能,半监督表示方法在LDA模型扩展研究中取得了较好的适应性和实验性能,OPTICS密度分析方法对于话题间融合具有较好的弱化作用。
其他文献
蛋白质亚细胞定位预测就是利用原始氨基酸序列来判断其具体的亚细胞归属,预测依据为生物学常用的观点,序列决定结构,结构决定功能,而亚细胞定位与蛋白质的功能有密切联系,所以我们
作为动力系统的一个分支,神经网络具有丰富的动力学行为。它在诸如模式识别、信号处理和优化计算等方面均有广泛的应用,这吸引了很多学者对其动力学行为展开研究。本文主要研究
由于电信运营商面对的计算任务日益趋向于复杂多样,需要充分利用已有的强大硬件平台建设统一的云计算平台,以满足其各种计算需求。云计算是近几年来计算机领域的一个研究热点
Ad Hoc网络是目前移动通信领域的研究热点,能够满足未来个人通信用户对网络无所不在的需求。当前对Ad Hoc网络研究主要集中在路由协议、基本组网技术和安全性机制等方面,尤其
随着信息社会的迅猛发展,各部门根据各自不同的业务需求和计算机软硬件结构等特点分别在不同时期保存了各种各样的历史数据,这些数据常存在大量重复、大小写不一致、前后矛盾
中国是世界上棉花种植面积最大、产量最大、消耗量最大的国家。棉花是广大人民的生活必需品,和群众的生活息息相关。棉花是易燃品,在棉花的储存过程中安全是第一位,应有严格的管
随着高校之间办学合作、合并重组等的日益频繁,我国许多高校往往有不止一个校区,或者在多地具有分校,传统的单一校园网组网技术已不能满足数据安全传输的要求。VPN是一种利用公
将现代加密技术应用于关系型数据库(Relational DataBase,RDB)中,是防止RDB敏感数据泄露失密,保证RDB安全运行的重要技术手段。   论文在对目前国内外RDB加密实现机制和方式
视频会议系统是一种集计算机、通信和微电子技术于一体的多方远程异地通信方式。在视频会议系统的发展历程中,如何提高视频会议中语音与图像的传输质量已经成为视频会议系统
电爆丝喷涂是将电爆炸技术应用于材料表面喷涂的一种新兴的技术,与传统的喷涂技术相比具有独特的优势,如涂层的结合度高且厚度均匀、喷涂速度快等。目前现有的大部分喷涂装置还