基于聚类与排序的网络新闻热点发现与抽取

来源 :北京大学 | 被引量 : 0次 | 上传用户:fenggge886
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络新闻的蓬勃发展与随之而来的信息爆炸,人们一方面可以轻易获取到广泛的资源,丰富自己的生活;另一方面,读者获得关键信息的时间成本也随之增加。如何从海量的网络新闻中自动获得有用信息,监控网络舆情成为一项实用而迫切的任务。新闻重大事件的检测和抽取正好满足了人们从大量的网络新闻中获取关键信息、提高阅读效率的需求,同时也能帮助政府相关部门进行网络舆情监控。  本文针对新闻重大事件发现与抽取任务,设计并实验了两种基于聚类和排序的网络新闻突发事件检测与抽取框架,力求更准确、更及时的挖掘出热门的网络新闻突发事件。在第一组实验中,本文提出了一种基于层次聚类和增量聚类的混合模型,通过层次聚类提取单日新闻热点,再为热点新闻建立关键词图(Key Graph),提取热点的特征向量,最后对热点进行增量聚类。这一框架平衡了层次聚类的准确性和增量聚类的效率,取得了较好实验效果。为了更好的确定层次聚类终止条件,本文还提出了“类内凝聚度”指标,用更符合人们直觉的办法确定层次聚类阈值,得到更符合人们预期的聚类结果。  第二组实验是基于狄利克雷过程聚类模型的新闻热点发现策略,设计了种带时间因子的狄利克雷聚类模型,更好的模拟了新闻事件产生、发展和衰退的过程。狄利克雷过程聚类模型是一个非参数贝叶斯模型,它不用事先指定聚类个数,而可以通过算法自动确定最终的聚类结果,更符合网络新闻聚类的特点。为了适应网络新闻大数据量的问题,本文采用了一种基于搜索的快速推断算法,来取代传统的吉布斯采样推断。实验证明,本文的推断算法能在更短的时间内得到比吉布斯采样更好的数据似然值。  此外,本文还探索了如何更好的表示网络新闻文档,使其能更准确、有效的表达网络新闻的特征,以及如何通过后处理、排序,获得更符合人们预期的给定时间区间内的重大事件。针对网络新闻文档表示,本文提出一种改进的TF-IDF算法,结合网络新闻的特点计算特征权重。通过多组实验,本文确定了以报道期间每日平均报道量为标准的排序策略,对新闻事件按重要程度排序。实验证明,本文挖掘出的新闻热点和各大门户网站人工总结的热点有很高的覆盖率。  
其他文献
自万维网(WWW)诞生以来,各种信息不断在网络上涌现,网络用户数量也与日俱增。近些年,网络内容组织方式也在逐渐地发生变化,从“博客”到Facebook,再到Twitter,互联网上出现了
空间环境及其扰动不仅影响卫星、通讯系统、导航系统的正常运行,而且在载人航天工作中扮演着重要角色。预报空间环境的变化,已经成为人类进行航天活动的前提基础。空间环境预
探空火箭有效载荷综合电测设备是国家重大科技基础设施东半球空间环境地基综合监测子午链(简称“子午工程”)探空火箭项目的一部分,针对探空火箭上携带的多种有效载荷进行地面
为了借鉴国外成熟的技术更好的指导我国林业经营和管理决策,引进国外优秀的森林植被仿真软件系统非常必要。本文主要介绍了对美国森林植被仿真系统FVS进行中国化的实践方法和
目前,我国正面临着严重的人口出生缺陷数量增大的问题,因此,国家计划生育委员会开发了免费孕前优生健康检查系统,2010年的12月份,该系统已经开发完毕,现已经在全国100多个试
随着集成电路制造工艺的特征尺寸不断缩小,芯片的性能以及复杂度也不断提高。鉴于当前集成电路制造工艺的迅速发展而导致的芯片复杂度越来越高的事实,如何做到对处理器芯片接
实践十号卫星是我国首颗空间微重力科学实验卫星,综合电控箱用于控制7台空间科学试验载荷(实验设备)的实验过程。空间科学实验对试验设备的要求很高,如果每一台设备都使用人
正电子发射断层扫描(Positron Emission Tomography,PET)是当前最高层次的核医学影像技术,借助扫描前注入活体内的放射性核素标记的示踪剂进行显像,能够在分子和细胞水平上反
现代社会生活中,视频信息逐渐成为人们传递信息的一种重要途径,可以足不出门便可观澜天下事成为现代生活的重要特征。视频信息作为一种重要的信息传递途径,以其直观性强等特点越
航天器电子设备是航天器的重要组成部分,其系统设计及设备制造需要耗费大量人力、物力成本,航天器电子设备具有伴随航天器发射后到被回收之前的不可维修性,使用地面测试系统