论文部分内容阅读
近几十年来,互联网行业蓬勃发展,网络信息量大大增加。涵盖事件多、涉及层面广的互联网新闻已经成为人们获取新闻消息的主流渠道。但是对于同一个话题,报道往往因媒体的立场和水平会有不同的侧重点,因此建立以话题为单位的信息存储形式、全面了解事件的起因、发展等已经成为当前的研究热点。针对网络新闻报道持续时间长、涉及层面广、涵盖事件多等特点,本课题主要研究如何建立一种面向网络新闻报道的话题检测模型,可以快速、准确地检测出新话题,并将同一话题类的相关报道汇聚在一起。论文的主要研究工作和创新点如下:第一,针对传统谱聚类算法需要人为输入尺度参数这一缺陷,提出了一种改进的自适应谱聚类算法。该算法可以根据样本空间自动确定尺度参数,不再需要人为输入。传统的谱聚类算法则需要人们不断地修改尺度参数值,然后选取最优解,具有一定的经验性,而且需要耗费大量的时间,不利于大数据量的处理。采用低维数据进行实验,算法的效率得到了提升,也取得了较好的聚类效果。第二,提出一种基于改进的自适应谱聚类算法的话题聚类算法,实验验证该算法的有效性。将论文提出的改进的自适应谱聚类算法用于话题聚类算法中。实验结果证明基于自适应谱聚类算法的话题聚类算法得到了更好的聚类结果,验证了自适应谱聚类算法对高维的新闻报道聚类同样有效。第三,提出一种基于在线增量式聚类算法的二级聚类策略,算法性能得到了提升。该策略在原有的话题层与报道层两层结构中加入子话题层,采用二级聚类方法,并将时间因子加入到聚类过程中,提出基于时间的预聚类,有效降低了聚类的计算复杂度。本文通过以上三点的研究工作,改进了谱聚类算法,提出了话题聚类的二级聚类策略,对于提升话题聚类的准确度具有一定的参考价值。