论文部分内容阅读
随着互联网的不断普及与发展,新闻门户网站、论坛、微博等平台提供的信息日益丰富,网络已经逐渐成为人们获取信息的重要渠道。但在中文各种类别数据突飞猛涨的情况下,人们在海量信息中无法获取感兴趣的话题。同时,网络监管部门面对如此庞大的数据量和信息流,无法有效的了解当前社会讨论的话题。因此,热点话题发现技术已经成为了当前研究普遍关注的热点问题。本文主要针对的是不同类别中文新闻并根据类别信息设计并实现了一种基于多类别文本的新闻热点发现系统,其主要的工作如下:(1)详细的介绍了网络爬虫的基本框架与步骤,对搜狐、网易、腾讯以及中新网进行新闻数据采集和标注,构建实验语料库。研究了新闻数据的预处理过程,并运用词法分析技术对新闻进行特征词选择与输出。(2)阐述了传统TF-IDF(Term Frequency–Inverse Document Fequency)权重计算方法,并结合新闻的结构特点和类别属性对TF-IDF进行了改进。研究了近邻传播聚类算法,并根据新闻的时间属性以及文本特点,对相似度矩阵的计算方式进行了改进。(3)提出了词语代表性值的计算方式,通过选择排名靠前的词语对话题簇进行描述。在话题检测的基础上,根据新闻话题的时间密度、空间密度以及簇占比三个因素,提出了新闻话题热度的计算方法。(4)实现了基于多类别文本的新闻热点发现系统,该系统包括数据采集模块、数据预处理模块、特征向量表示模块、话题检测模块以及热点发现模块等。为了验证系统的可行性,对它进行了性能评估和功能测试。在该热点发现系统中,新闻是通过一系列的自动处理,很快的给出用户所关心某个时间内的热点话题。这个系统的实现减少了整理新闻的人力和物力,同时也节省了人们寻找热点新闻的大量宝贵时间。普通用户可以通过该系统查找自己感兴趣的热点话题,从而对获取信息有更好的体验。网络监管部门可以通过该系统可以获知当前的舆论热点,从而可以更好的把握舆论动向。因此,这个系统和技术将会产生巨大的市场和社会价值。