论文部分内容阅读
如今,互联网已与我们的生活密不可分,网民们非常习惯通过网络搜索去了解世界上发生的大小新闻和事件,找到自己关心的信息。然而,飞速发展的技术带来了信息的快速传播以及爆炸式的增长,各类信息也变得越来越碎片化。当人们想对某个感兴趣的新闻事件进行查询,以了解事件完整脉络和演化过程的时候,由于新闻的时效性,各个媒体往往只会在事件出现重要转折或进展时才进行报道,并且大多为介绍当前的事件情况,因此用户需要自己进行多次的查询,阅读多篇相关的文章才有可能了解到事件的前因后果与完整信息,非常不便。不仅如此,当用户想进一步进行拓展阅读,了解更多类似事件的时候,现有的搜索引擎也没有针对事件内容对比的相似事件推荐,因此用户无法通过现有的检索操作获取到整合后的相似事件信息。本文针对新闻事件检索领域的事件信息整合和相似事件推荐两个问题,在对相关文献和研究成果进行梳理后,提出了基于要素图的新闻事件检索模型。该模型先通过将TextRank算法与关键词初次出现位置信息结合,形成TR-F算法进行新闻文档中关键词的提取与处理,利用条件随机场进行文档中地名的识别与抽取,利用新闻发布时间得到了事件的时间信息。接着通过计算事件要素的相似度,进行事件内容聚类形成了事件的要素图,实现了基于时间序列的事件拼图功能,该功能可以将大量的碎片化信息进行有效整合,拼接成完整的事件发展脉络。接着,本文提出了将事件按照时间跨度进行分段的方式,通过将VSM模型与文中提出的分段度量方法进行融合,来计算事件内容方面的相似度,并对BM-25算法进行了改进,以实现查询问题的有效检索,从而可以高效的为用户推荐与目标查询事件相似的其他事件。在此之后,本文通过在真实数据集上进行实验对比与分析,证明了文中所提出的基于要素图的新闻事件检索模型的有效性和可行性。然后在该检索模型的基础上,本文初步设计了基于要素图的新闻事件检索原型系统,并对系统中的各模块进行了功能与实现策略的详细介绍。