论文部分内容阅读
随着网络新闻的蓬勃发展与随之而来的信息爆炸,人们一方面可以轻易获取到广泛的资源,丰富自己的生活;另一方面,读者获得关键信息的时间成本也随之增加。如何从海量的网络新闻中自动获得有用信息,监控网络舆情成为一项实用而迫切的任务。新闻重大事件的检测和抽取正好满足了人们从大量的网络新闻中获取关键信息、提高阅读效率的需求,同时也能帮助政府相关部门进行网络舆情监控。 本文针对新闻重大事件发现与抽取任务,设计并实验了两种基于聚类和排序的网络新闻突发事件检测与抽取框架,力求更准确、更及时的挖掘出热门的网络新闻突发事件。在第一组实验中,本文提出了一种基于层次聚类和增量聚类的混合模型,通过层次聚类提取单日新闻热点,再为热点新闻建立关键词图(Key Graph),提取热点的特征向量,最后对热点进行增量聚类。这一框架平衡了层次聚类的准确性和增量聚类的效率,取得了较好实验效果。为了更好的确定层次聚类终止条件,本文还提出了“类内凝聚度”指标,用更符合人们直觉的办法确定层次聚类阈值,得到更符合人们预期的聚类结果。 第二组实验是基于狄利克雷过程聚类模型的新闻热点发现策略,设计了种带时间因子的狄利克雷聚类模型,更好的模拟了新闻事件产生、发展和衰退的过程。狄利克雷过程聚类模型是一个非参数贝叶斯模型,它不用事先指定聚类个数,而可以通过算法自动确定最终的聚类结果,更符合网络新闻聚类的特点。为了适应网络新闻大数据量的问题,本文采用了一种基于搜索的快速推断算法,来取代传统的吉布斯采样推断。实验证明,本文的推断算法能在更短的时间内得到比吉布斯采样更好的数据似然值。 此外,本文还探索了如何更好的表示网络新闻文档,使其能更准确、有效的表达网络新闻的特征,以及如何通过后处理、排序,获得更符合人们预期的给定时间区间内的重大事件。针对网络新闻文档表示,本文提出一种改进的TF-IDF算法,结合网络新闻的特点计算特征权重。通过多组实验,本文确定了以报道期间每日平均报道量为标准的排序策略,对新闻事件按重要程度排序。实验证明,本文挖掘出的新闻热点和各大门户网站人工总结的热点有很高的覆盖率。