论文部分内容阅读
随着计算机技术和互联网的不断发展,人们获得新闻信息的主要途径由报纸、广播、电视等传统媒介逐渐转向网络新闻媒体,互联网已经成为主要的信息传播平台,通过互联网来了解新闻事件的网民数量也呈现递增趋势,随之带来的问题是网络上出现大量的冗余新闻报道,包括不同新闻媒体对同一事件内容重复的报道和新闻报道之间的相互转载现象,读者往往在大量冗余报道面前感到无从下手,如何使得网络新闻读者迅速地了解整个新闻事件的来龙去脉是亟待解决的问题。本文从读者的角度出发,对新闻事件进行百度搜索,在此基础上建立了离线语料库,在此语料库的基础上对网络新闻事件之间的关系进行了进一步分析研究。本文主要研究工作如下:(1)本文对网络新闻事件演变分析方法进行了研究,首先提出了网络新闻事件中要素是人们最为关心的信息,在事件发展过程中要素参与度是不断变化的,网络新闻演变分析的目的就是发现事件中要素信息与事件的相互关系,通过可视化软件形象地展现给读者。演变分析方法应用了文本挖掘中的多文档摘要技术和命名实体识别技术,本文对这些技术进行了相关介绍。(2)本文提出了一种基于字符统计的新闻网页去重方法,该方法对网页中出现的高频特征字符进行了统计提取,对特征字符组合成的特征串进行了数字指纹计算,根据数字指纹数组之间的交集大小来判断两个网页是否重复,通过实验验证了本文提出方法的有效性,去重F值达到了94.91%,本文基于该算法完成了网络新闻语料库的构建。(3)本文提出了一种基于要素提取的时间表摘要方法,根据新闻本身均具有基本要素的特点,对新闻报道要素词组进行了提取加权处理,在计算句子之间相似度的基础上完成了转移概率矩阵的构建,最后在重要时间节点上进行句子抽取并完成了时间表摘要。通过网络新闻语料库上的实验验证了本方法的有效性,召回率、准确率和F值平均分别达到了45%、35%、40%左右。(4)本文在时间表摘要和新闻事件要素提取的基础上进行了新闻事件可视化演变分析研究,通过应用社会网络分析技术,构建新闻要素矩阵,对新闻事件中的要素信息的参与度变化完成了可视化展示。