基于TF-IDF与TextRank的自动摘要抽取

来源 :江苏大学 | 被引量 : 2次 | 上传用户：lingfangzhi12

【摘要】

：

【作者】

：

张志尧

【出处】

：

江苏大学

【发表日期】

：

2019年01期

【关键词】

：

TF-IDF TextRank CBOW 语义信息位置信息

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本自动摘要技术可以压缩文本中冗余的文本,且不影响文本中心内容,能方便用户快速了解文本包含的信息。在现实生活中具有很大的应用价值。例如:新闻专题中包含新闻内容;文本情感分析;自动问答等领域。自动摘要抽取流程划分为两个模块:第一部分,文本主题词抽取模块和第二部分的文本句子抽取模块。文本主题词抽取模块,传统的TF-IDF算法主要以词出现在文本中的频率度量词的重要性,未考虑词的语义和位置等有用信息,容易造成抽取的主题词不准确,进而影响到后面句子抽取的性能。在文本句子抽取模块,传统的TextRank算法以共现词作为图模型的边来度量句子之间相似度,未考虑句子的语义和位置等有用信息,容易造成抽取的句子之间存在冗余度,可读性差。基于传统TF-IDF算法和TextRank算法存在的问题,本论文做了如下的主要工作:(1)提出融入词的语义和位置信息的基于TF-IDF主题词提取算法。算法首先运用jieba分词工具实现词的切分、词性标注、停用词的去除以及非名词的去除;其次利用原有TF-IDF算法统计文本中各词出现的频率即计算TF值和IDF值,计算TF*IDF的值即为该词的暂时值;接着是融入词的位置信息,根据词的位置赋相应权重P_i,得到新值TF*IDF*P_i。最后采用Word2Vec中CBOW模型将词转化为词向量表示,以函数WORDSIM度量词与词之间的相似度,将语义相似度高的同义词进行合并,完成文本主题词的最终确定。并以文本《2018中国人工智能白皮书》进行了TF-IDF算法和改进的TF-IDF两种算法的对比实验,结果表明,后者抽取的主题词值分布更合理,更有利于主题词的抽取。(2)基于TextRank算法改进句子处理。TextRank算法以句子作为顶点,以共现词作为边的度量。为避免TextRank算法模型中边以共现词度量无法客观反映出两个句子的相似性,对边的相似性作了改进,以孪生神经网络度量两个句子的相似性。对句子在段落中不同位置赋予不同权重,同时对主题词信息和非主题词信息句子赋予不同权重,修改其相似值,由此得到句子得分。按照主题词顺序对含主题词句子排序。含同一主题词的句子再以时间等信息排序,然后根据句子得分来选择文本相似性句子,去除冗余的相似句子,最后根据句子数值将阈值以下的句子剔除,剩下的句子组合即为摘要。实验以ROUGE-N、Recall和Precision为评价指标进行对比实验,结果表明了本文改进算法的有效性。(3)最后,以python和JavaScript实现了其原型系统,并对该系统功能和性能进行测试,取得较好的效果。

其他文献

长三角城际轨道交通设想

城际轨道交通,在国外又称区域性轨道交通系统(Reguonal Rail System),是指在中心城市辐射经济圈中的便捷、快速、大运量、衔接合理的客运轨道交通系统.城际轨道交通作为介于

期刊

城际轨道交通轨道交通系统三角中心城市区域性经济圈大运量

一种硅基金属狭缝表面等离子体波导的设计

设计了一种适用于光电子集成电路的表面等离子体波导结构．利用三维全矢量时域有限差分法对该波导结构进行了数值模拟，并分析了其在基模传输时的模式场分布与金属结构顶角的关系

期刊

集成光学光波导表面等离子体波导时域有限元差分法光电子集成电路Integrated optics Optics waveguide Surface pl

浅析初中生在学习数学的过程中应养成的好习惯

【中图分类号】G633.6 【文献标识码】A 【文章编号】2095-3089（2018）27-0122-02　　著名作家巴金曾说过：“孩子成功教育从好习惯培养开始”。我们很多家长都有同感，孩子上了很多补习班，花了很多时间在学习数学上，但是数学成绩还是没有一点的提高。这让家长很头痛，孩子也很苦恼。其实孩子数学成绩不好，最主要的原因就是因为没有养成好的学习数学的习惯。那么，什么是学习习惯呢？学习习惯是

期刊

学习数学初中生学习习惯习惯培养数学成绩学习效果成功教育著名作家

速生草质木塑复合材料制备与性能表征

本文旨在以狼尾草等速生草质资源为基材,以聚乙烯(PE)为复合组分,纳米氧化锌/纳米刚玉粉为强化因子,基于单因素实验结果借助响应面试验法,采用温压成形工艺制备出具有明显低

学位

速生草木塑复合材料响应面法温压成形纳米改性特性表征

上海能发展电动自行车吗

太多的人采用这种交通方式，地铁就不能发挥其应有的功能，造成设施的浪费；上海为提高公共交通的服务水平和公交的可靠度，正在实施推进公交专用道建设的交通政策，涉及到道路路权使用

期刊

电动自行车上海公交专用道交通方式公共交通交通政策交通状况恶性循环

基于TF-IDF与TextRank的自动摘要抽取

其他学术论文