论文部分内容阅读
文本自动摘要技术可以压缩文本中冗余的文本,且不影响文本中心内容,能方便用户快速了解文本包含的信息。在现实生活中具有很大的应用价值。例如:新闻专题中包含新闻内容;文本情感分析;自动问答等领域。自动摘要抽取流程划分为两个模块:第一部分,文本主题词抽取模块和第二部分的文本句子抽取模块。文本主题词抽取模块,传统的TF-IDF算法主要以词出现在文本中的频率度量词的重要性,未考虑词的语义和位置等有用信息,容易造成抽取的主题词不准确,进而影响到后面句子抽取的性能。在文本句子抽取模块,传统的TextRank算法以共现词作为图模型的边来度量句子之间相似度,未考虑句子的语义和位置等有用信息,容易造成抽取的句子之间存在冗余度,可读性差。基于传统TF-IDF算法和TextRank算法存在的问题,本论文做了如下的主要工作:(1)提出融入词的语义和位置信息的基于TF-IDF主题词提取算法。算法首先运用jieba分词工具实现词的切分、词性标注、停用词的去除以及非名词的去除;其次利用原有TF-IDF算法统计文本中各词出现的频率即计算TF值和IDF值,计算TF*IDF的值即为该词的暂时值;接着是融入词的位置信息,根据词的位置赋相应权重P_i,得到新值TF*IDF*P_i。最后采用Word2Vec中CBOW模型将词转化为词向量表示,以函数WORDSIM度量词与词之间的相似度,将语义相似度高的同义词进行合并,完成文本主题词的最终确定。并以文本《2018中国人工智能白皮书》进行了TF-IDF算法和改进的TF-IDF两种算法的对比实验,结果表明,后者抽取的主题词值分布更合理,更有利于主题词的抽取。(2)基于TextRank算法改进句子处理。TextRank算法以句子作为顶点,以共现词作为边的度量。为避免TextRank算法模型中边以共现词度量无法客观反映出两个句子的相似性,对边的相似性作了改进,以孪生神经网络度量两个句子的相似性。对句子在段落中不同位置赋予不同权重,同时对主题词信息和非主题词信息句子赋予不同权重,修改其相似值,由此得到句子得分。按照主题词顺序对含主题词句子排序。含同一主题词的句子再以时间等信息排序,然后根据句子得分来选择文本相似性句子,去除冗余的相似句子,最后根据句子数值将阈值以下的句子剔除,剩下的句子组合即为摘要。实验以ROUGE-N、Recall和Precision为评价指标进行对比实验,结果表明了本文改进算法的有效性。(3)最后,以python和JavaScript实现了其原型系统,并对该系统功能和性能进行测试,取得较好的效果。