论文部分内容阅读
随着大数据时代的来临,用户淹没在信息的海洋之中,面临“Big Data,Thin Knowledge”的窘境。以新闻事件报道为例,当某一新闻事件发生之后,不同的信息来源、不同的观察角度以及事件不同的发展阶段,产生了同质异构且数量庞大的新闻报道。这使得用户想要全面、准确和及时获取新闻信息不再是一件简单的工作。时间摘要技术融合了话题检测技术以及信息挖掘技术,能够根据内容、时间、地点等条件约束,针对新闻事件提取出有用的关键信息,帮助用户及时掌握新闻动态,缓解信息过载难题,因而得到众多研究者的广泛关注。本文以新闻事件的时间摘要为主要研究内容,通过分析传统摘要技术所存在的问题,包括事件内容分析不充分,抽取信息冗余度高,摘要组成结构单一等,提出了基于事件主题挖掘的时间摘要系统。系统从事件本身的特点出发,形成了两个核心算法,基于语义空间映射的事件分析方法和基于数据引力的主题聚类方法。并且结合TREC会议对本文所提到的方法做出了系统的测评,结果证明,本方法能够极大的提高摘要建立的性能。本文主要的研究内容如下:首先,论文在对自动摘要研究领域进行综述以及了解时间摘要任务特点的基础上,提出了时间摘要系统的设计方案,并且给出了摘要建立的一般流程和系统框架。针对系统所涉及的各个环节,详细的介绍了信息检索、事件分析、主题聚类和摘要抽取四个模块。通过模块的建立,实现了基于事件主题挖掘的时间摘要系统。其次,区别于传统的以时间因素分割文本的摘要建立方法,本文提出了基于语义的事件分析方法。目标是从语义的角度理解新闻事件的内容,从而提高摘要的质量和准确率。方法基于互信息改进的流型学习算法将高维向量空间中的文本映射到低维的语义空间,进而在语义空间中分析事件的发展过程。再次,文本为了减少信息冗余的问题,提出了基于数据引力的主题聚类方法,目标是通过对大规模文本进行聚类,减少相似文本对于摘要的影响。方法借鉴世间普遍存在的万有引力定律,和文本空间中的数据信息进行了比较,发现事件主题对于文本数据的吸引程度也在某种意义上符合万有引力定律。基于这种特性,对聚类的半径进行动态调整,以提高聚类的精度。最后,本文基于TREC会议的Temporal Summerisation Track对系统进行了测评。实验结果表明,在期望收益(Expected Gain)和综合性(comprehensiveness)上,本系统都有明显的提高。其中,在2013年因为在value track中成绩优异而收到TREC的官方邀请进行25分钟大会报告,在2014年,综合指标位居整体第二位。