论文部分内容阅读
随着互联网的发展,网络上存在的信息量也急速增长,导致人们获取有效信息的难度加大。特别是对于资讯信息量大的个人、企业和事业单位,想要仅仅凭借人力对互联网信息进行整合与分析,难度巨大,是一个几乎不可能完成的任务。互联网热点事件挖掘和分析技术通过缓解信息重载、整合冗余信息以及提炼核心信息,可以有效解决上述问题。互联网热点事件挖掘领域的研究包括话题发现、事件主题生成、事件特征分析、事件内容抽取等。话题发现技术研究起步较早,目前已有较多成果。但是事件与话题不同,一个话题包含了多个描述相同事件的文本,而一个事件就是一句能够高度概括话题的话,我们可以将事件理解成话题的标题。热点事件主题句生成算法用于提取话题核心内容,生成热点事件,这方面的研究近几年在国外兴起,而国内研究较少,国内大部分关于热点事件挖掘的研究都局限于话题发现,而未对发现的话题进行整合处理,生成更具代表性和特征性的话题表现形式,即事件主题句。本文针对上述问题,在热点事件挖掘领域进行热点事件主题句生成技术的研究,主要完成了以下几个工作:第一,设计了一种基于话题核心词映射和事件三元组选择的混合事件候选集构建算法。该算法利用PAT-Tree技术提取话题文本中的高频核心词,将高频词映射成到句子,生成一部分事件核心句。另一部分事件核心句通过将事件三元组做作为候选元,从话题文本中抽取出包含事件元素的句子。将两种方法的生成的事件核心句子集合混合起来,并进行过滤、排序等操作,得到候选集。候选集可以用于构建基于词图的MSC模型。第二,提出了一种改进的基于词图的MSC模型,并使用该模型进行事件主题句的提取。基于词图的MSC模型在处理英文文本和西班牙文文本上有不错的表现,本文对该模型进行改进后将其用于中文热点事件生成,取得了不错的效果。该模型将候选集中的事件核心句子转化成词图的形式,词图是一个有向加权无环图,图中的节点表示词语,边表示词语之间的连接关系,词图中每一条路径都代表了一个可能的句子。同时,本文还设计了点权重和边权重的得分公式,使得最终生成的句子在信息量和语言连贯性方面表现良好。最后在生成的词图上使用集束搜索算法计算出得分高的词图路径作为最终生成的事件主题句。通过实验我们计算得出当前数据量下的最佳集束宽度值,并且与其他两种传统多文档标题生成算法进行对比证明该算法在信息量和语言连贯性两个方面都具有良好的表现效果。第三,基于以上研究,实现了热点事件分析系统,系统对已有的话题数据进行分析,利用本文研究的事件主题句生成算法生成热点的标题,即热点事件。同时从不同维度对话题进行展示并完成了数据可视化,可视化包括了事件热度趋势变化、事件情感极性趋势变化、事件文章来源分布等等。系统还针对个性化实现了实体和事件的定制功能。