新闻数据中突发话题检测研究

被引量 : 4次 | 上传用户:wanshixian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
突发话题检测是指从海量文本数据中提取随时间发展迅速的话题。该问题涉及到突发特征检测,话题模型构建和话题演进分析等多个方面。针对不同的数据,分析方法各异。本文重点对英文新闻标题数据进行分析。新闻标题词汇量大,长度小,变化性强,在特征空间中分布稀疏。这些特征给突发话题检测带来巨大挑战。本文主要对新闻标题流中的突发话题检测进行了如下研究:(1)突发特征置信度优化研究。Kleinberg的二状态自动机方法是应用最广的突发特征检测方法。其可以使用不同的解析度参数对不同强度的突发特征进行检测。本文对其进行深入研究,提出了一个解析度参数估算方法,能够使检测出的突发特征置信度最大。通过自动调整解析度参数,能够使模型自适应于不同的主题词,从而避免了手动调整参数的麻烦。实验证明,该方法能够快速为不同突发词估计最佳的解析度,并使突发特征置信度和突发时间段逼近最优值。(2)突发特征鲁棒性改进研究。在新闻标题流中,突发事件和平凡事件的分布是不均匀的。众多平凡事件会对突发特征检测产生影响,形成噪声特征。另一方面,大多数突发特征检测算法对平凡事件的鲁棒性不高。为了去除噪声,本文提出了一个几乎可应用于所有突发特征检测算法的噪声去除算法。该算法借鉴了最大熵思想,并对最大熵的鲁棒性进行了改进,使得在突发事件和平凡事件分布不均的条件下,依然可以很好的去除噪声特征。实验证明,该算法能够在保留突发特征的前提下有效去除噪声特征,进而提高突发特征的鲁棒性。(3)突发话题的静态结构研究。本文针对新闻标题长度短、词频低的特点,提出了一个层次聚类算法,来找到标题集中有意义的词语共现信息,并将其归纳为一个词语共现树。通过分析发现,突发话题在词语共现树中会有明显的特征,本文称之为省略引述特征。通过寻找词语共现树中的省略引述特征,可以发现其中存在的突发话题。整个过程全部是基于对新闻标题的静态分析,而没有考虑标题的发布时间。为了实现如上分析,本文首先提出了一个词语权重度量方法,从而对词语描述标题含义的能力进行评价。然后依据这种描述能力将标题聚类成簇。进而对簇中标题集采用相同方法进行聚类,如此迭代形成一颗词语共现树。该树中的省略引述特征就是描述文本集中突发话题的特征。实验证明,本文提出的聚类算法可以有效降低新闻标题分布的稀疏性和表示维度,所得到的聚类中心可以很好的表示数据集中的新闻话题。最后,通过与维基百科中真实事件作对比,本文基于省略引述特征的突发话题检测方法可以覆盖大部分维基百科中的事件,所检测出的词语共现特征可以较好的描述现实中的突发话题。(4)突发话题动态结构研究。传统的突发特征检测方法大都对词频随时间的变化进行建模,而没有对词语共现信息随时间的变化进行建模。本文发现,描述突发话题的词语共现信息通常在时间上有相似的部分,通过对其进行建模,可以找到在时间上具有承上启下现象的词语共现特征,也即突发话题。具体地,本文对每个标题进行随机游走排序。提出了一个基于半随机游走的动态主题模型,通过对模型中起到承上启下作用的词语共现信息进行推理,可以获得一条随时间变化的话题演进序列,进而找到突发话题。实验证明,本文算法能够灵敏的捕捉到词语共现模式随时间的变化规律,相比于基于词频的方法,本文算法可以检测出更多突发话题,并且能够更加精确的定位突发话题真实的发生时间。
其他文献
<正>由我国自主研究发明的农耕新方法粉垄及其应用研究近期通过了由院士等专家的科技成果鉴定;该方法经8个省(区)在水稻、玉米等13种不同作物应用试验,证明其较传统耕作增产1
有些咨询者提到夫妻之间性事不协调,追究原因并非是生理上有问题,而往往与感情“走私”有关,属于境遇性障碍范畴,在此举出几例,为保护当事人隐私,我们不用真名实姓,目的是告
本研究分析了中国学习者口语语料库(SECCL)朗读任务中介词表达的突显性。利用Praat对14名英语专业大学生的4年朗读语料进行标注,考察中国英语学习者是否对本族语者通常弱读的
本文主要在紫铜基体上分别进行了电刷镀单层快速镍镀层、单层低应力镍镀层的试验,并进行了快速镍与低应力镍三层组合刷镀及五层组合刷镀厚镍的试验。对各个镀镍层的表面形貌、
分析数字出版产品与服务提供商、数字出版技术开发商与平台提供商、数字出版产品与服务分销商这三类主要的数字出版产业链主体,重点探讨了各自的功能定位,并指出各产业链主体
网络是高科技的产物,是现代文明的结晶,作为信息化传递的主要载体,其重要性日益显现出来。网络极大的改变了人们的生活习惯、思维方式、价值观念和道德问题。当网络传播的触
近年来,随着工业的发展,大量排放的高盐高有机物废水对环境产生非常不利的影响。由于高盐对生物的抑制作用,主要采用物化方法处理,但由于其费用和能耗高,寻求其他方法处理高
探讨微创小切口手术在普胸外科应用中的适应证、禁忌证和优缺点。 1999年 7月至 2 0 0 1年 6月施行的 12 4例小切口开胸术(MT)中 ,采用后外侧小切口 82例 ,腋下小切口 17例 ,
网络异常检测是网络管理中的非常重要的课题,因此已在近年来得到广泛研究,人们在该领域提出了许多先进的网络流量异常检测方法,但是自动准确的对网络流量进行分类识别从而发
作为四川盆地油气勘探的重点层段嘉陵江组主体为一套克拉通台地相沉积,其中灰岩和白云岩储层发育。针对嘉陵江组的油气勘探截止2009年底,探明储量达1141.15亿方,占四川盆地天然