基于TF-IDF与TextRank的自动摘要抽取

来源 :江苏大学 | 被引量 : 2次 | 上传用户:lingfangzhi12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动摘要技术可以压缩文本中冗余的文本,且不影响文本中心内容,能方便用户快速了解文本包含的信息。在现实生活中具有很大的应用价值。例如:新闻专题中包含新闻内容;文本情感分析;自动问答等领域。自动摘要抽取流程划分为两个模块:第一部分,文本主题词抽取模块和第二部分的文本句子抽取模块。文本主题词抽取模块,传统的TF-IDF算法主要以词出现在文本中的频率度量词的重要性,未考虑词的语义和位置等有用信息,容易造成抽取的主题词不准确,进而影响到后面句子抽取的性能。在文本句子抽取模块,传统的TextRank算法以共现词作为图模型的边来度量句子之间相似度,未考虑句子的语义和位置等有用信息,容易造成抽取的句子之间存在冗余度,可读性差。基于传统TF-IDF算法和TextRank算法存在的问题,本论文做了如下的主要工作:(1)提出融入词的语义和位置信息的基于TF-IDF主题词提取算法。算法首先运用jieba分词工具实现词的切分、词性标注、停用词的去除以及非名词的去除;其次利用原有TF-IDF算法统计文本中各词出现的频率即计算TF值和IDF值,计算TF*IDF的值即为该词的暂时值;接着是融入词的位置信息,根据词的位置赋相应权重P_i,得到新值TF*IDF*P_i。最后采用Word2Vec中CBOW模型将词转化为词向量表示,以函数WORDSIM度量词与词之间的相似度,将语义相似度高的同义词进行合并,完成文本主题词的最终确定。并以文本《2018中国人工智能白皮书》进行了TF-IDF算法和改进的TF-IDF两种算法的对比实验,结果表明,后者抽取的主题词值分布更合理,更有利于主题词的抽取。(2)基于TextRank算法改进句子处理。TextRank算法以句子作为顶点,以共现词作为边的度量。为避免TextRank算法模型中边以共现词度量无法客观反映出两个句子的相似性,对边的相似性作了改进,以孪生神经网络度量两个句子的相似性。对句子在段落中不同位置赋予不同权重,同时对主题词信息和非主题词信息句子赋予不同权重,修改其相似值,由此得到句子得分。按照主题词顺序对含主题词句子排序。含同一主题词的句子再以时间等信息排序,然后根据句子得分来选择文本相似性句子,去除冗余的相似句子,最后根据句子数值将阈值以下的句子剔除,剩下的句子组合即为摘要。实验以ROUGE-N、Recall和Precision为评价指标进行对比实验,结果表明了本文改进算法的有效性。(3)最后,以python和JavaScript实现了其原型系统,并对该系统功能和性能进行测试,取得较好的效果。
其他文献
城际轨道交通,在国外又称区域性轨道交通系统(Reguonal Rail System),是指在中心城市辐射经济圈中的便捷、快速、大运量、衔接合理的客运轨道交通系统.城际轨道交通作为介于
设计了一种适用于光电子集成电路的表面等离子体波导结构.利用三维全矢量时域有限差分法对该波导结构进行了数值模拟,并分析了其在基模传输时的模式场分布与金属结构顶角的关系
【中图分类号】G633.6 【文献标识码】A 【文章编号】2095-3089(2018)27-0122-02  著名作家巴金曾说过:“孩子成功教育从好习惯培养开始”。我们很多家长都有同感,孩子上了很多补习班,花了很多时间在学习数学上,但是数学成绩还是没有一点的提高。这让家长很头痛,孩子也很苦恼。其实孩子数学成绩不好,最主要的原因就是因为没有养成好的学习数学的习惯。那么,什么是学习习惯呢?学习习惯是
本文旨在以狼尾草等速生草质资源为基材,以聚乙烯(PE)为复合组分,纳米氧化锌/纳米刚玉粉为强化因子,基于单因素实验结果借助响应面试验法,采用温压成形工艺制备出具有明显低
太多的人采用这种交通方式,地铁就不能发挥其应有的功能,造成设施的浪费;上海为提高公共交通的服务水平和公交的可靠度,正在实施推进公交专用道建设的交通政策,涉及到道路路权使用