论文部分内容阅读
随着网络的发展,电子文本大量涌现,自动摘要提取以迅速、快捷、客观等手工摘要无可比拟的优势,使得其实用价值得到充分体现。摘要提取越来越受到人们的重视。传统的自动摘要提取方法基于词频统计提取摘要句,对文本不进行语义分析,导致摘要质量不高。 为了克服传统方法的缺点,本文在机械摘要方法基础上,提出了一种基于语义关系的摘要提取方法。以非受限区域的文本为处理对象,利用WbrdNet,HowNet中的语义关系构建层次结构图,使用改进的概念重要度计算参数,对由文章词语生成的层次结构图进行合理的优化剪枝操作。用最终归纳得到的关键概念代替具有同义词关系的词语,统一词语样式,提高向量空间模型表示文章内容的准确性。同时更加准确的识别文本中的同义句。基于语义关系的摘要提取方法将机械摘要处理文本的任意性和理解摘要的摘要质量较好的优点集中在一起。 同时,在基于语义关系的关键字提取基础上,根据已有的两种文本结构分析方法——基于段间相关度主题划分方法和基于词语重复度的主题划分方法,提出了基于段间特征词重复的主题划分方法,这种方法综合了已有的两种方法的优势,具有准确快速的优点。大量实验表明,我们提出的新方法具有较高的正确性,特别适合文档内容相似,用词差异较大的情形。