基于事件主题挖掘的时间摘要技术研究

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:zjkghost10
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,用户淹没在信息的海洋之中,面临“Big Data,Thin Knowledge”的窘境。以新闻事件报道为例,当某一新闻事件发生之后,不同的信息来源、不同的观察角度以及事件不同的发展阶段,产生了同质异构且数量庞大的新闻报道。这使得用户想要全面、准确和及时获取新闻信息不再是一件简单的工作。时间摘要技术融合了话题检测技术以及信息挖掘技术,能够根据内容、时间、地点等条件约束,针对新闻事件提取出有用的关键信息,帮助用户及时掌握新闻动态,缓解信息过载难题,因而得到众多研究者的广泛关注。本文以新闻事件的时间摘要为主要研究内容,通过分析传统摘要技术所存在的问题,包括事件内容分析不充分,抽取信息冗余度高,摘要组成结构单一等,提出了基于事件主题挖掘的时间摘要系统。系统从事件本身的特点出发,形成了两个核心算法,基于语义空间映射的事件分析方法和基于数据引力的主题聚类方法。并且结合TREC会议对本文所提到的方法做出了系统的测评,结果证明,本方法能够极大的提高摘要建立的性能。本文主要的研究内容如下:首先,论文在对自动摘要研究领域进行综述以及了解时间摘要任务特点的基础上,提出了时间摘要系统的设计方案,并且给出了摘要建立的一般流程和系统框架。针对系统所涉及的各个环节,详细的介绍了信息检索、事件分析、主题聚类和摘要抽取四个模块。通过模块的建立,实现了基于事件主题挖掘的时间摘要系统。其次,区别于传统的以时间因素分割文本的摘要建立方法,本文提出了基于语义的事件分析方法。目标是从语义的角度理解新闻事件的内容,从而提高摘要的质量和准确率。方法基于互信息改进的流型学习算法将高维向量空间中的文本映射到低维的语义空间,进而在语义空间中分析事件的发展过程。再次,文本为了减少信息冗余的问题,提出了基于数据引力的主题聚类方法,目标是通过对大规模文本进行聚类,减少相似文本对于摘要的影响。方法借鉴世间普遍存在的万有引力定律,和文本空间中的数据信息进行了比较,发现事件主题对于文本数据的吸引程度也在某种意义上符合万有引力定律。基于这种特性,对聚类的半径进行动态调整,以提高聚类的精度。最后,本文基于TREC会议的Temporal Summerisation Track对系统进行了测评。实验结果表明,在期望收益(Expected Gain)和综合性(comprehensiveness)上,本系统都有明显的提高。其中,在2013年因为在value track中成绩优异而收到TREC的官方邀请进行25分钟大会报告,在2014年,综合指标位居整体第二位。
其他文献
随着网络技术的蓬勃发展和信息化建设的推进,各个行业在信息化建设中产生了大量的“应用系统”,由于各种原因,这些应用系统逻辑上独立,往往成为业务流程和数据流的信息孤岛。为此
教学网站建设的目的,就是在教与学之间的互动环节上提供一个强而有力的平台。作为辅助教学的重要手段,教学网站目前已经蓬勃的发展起来。但是,纵观现有的教学网站:结构上,存在着重
答疑系统作为网上教学的重要组成部分,发挥着答疑解惑的重要作用。近年来,对它的研究应用已经成为教育科研人员关注的热点。现有的答疑系统大多数存在着答疑方式单一;系统操作繁
近年来,国内外各种研究机构和高等学府都展开了人脸识别技术的前沿研究和探索,不断涌现出许多新的成果,已逐步进入到应用推广阶段。现今,人脸识别算法所面临的主要挑战是:在光照、
乡村振兴战略是党中央新时期解决“三农”问题的宣言书,也是团结各方面力量决战“三农”问题的动员令.崇明是上海最具乡村特征的郊区之一,落实乡村振兴战略,是崇明的使命和担
期刊