论文部分内容阅读
多文档摘要技术是近几年受到广泛关注并发展迅速的研究课题。其旨在对内容相关的多篇文本集合进行分析,提取不重复的重要信息,形成简洁而又具有较强可读性的摘要文本,从而有效地降低用户的信息负载,提高用户处理信息的效率。对现有的多文档摘要技术进行改进和扩展是目前该领域的一个重要发展趋势。在多文档摘要研究中,主题之间关系和语义信息对文本信息理解至关重要。在基于抽取式的自动摘要技术中,句子抽取是关键且复杂的一个步骤。本课题主要结合主题模型和语义信息对多文档摘要句抽取方法进行研究。本文主要内容和工作有如下几个方面:第一.深入研究主题模型的产生以及发展过程,分析经典主题模型的原理、核心思想以及优缺点。重点研究hLDA主题模型,分析其原理和特征,为后续应用提供坚实的理论基础。第二.设计并实现多文档摘要句抽取系统。研究分析hLDA主题模型的建模效果、建模影响因素和建模结果调整。结合语义信息,将hLDA聚类效果与传统聚类方法进行比较,进而证明选择hLDA层次主题模型进行多文档摘要句抽取研究的意义。第三.结合hLDA层次主题模型特点和语义信息,从结构和语义两个方面进行分析,设计句子打分算法。利用实验评估打分结果。第四.制定句子抽取策略以抽取摘要候选句。研究摘要句抽取结果的自动评测方法,对抽取的摘要候选句进行公平准确的评价,并与其他句子抽取系统进行对比,证明本系统性能良好。本论文研究得到国家自然科学基金项目资助,编号61202247和71231002。