基于多特征抽取文本关键词算法的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户：daxiang11

【摘要】

：

【作者】

：

林书行

【出处】

：

吉林大学

【发表日期】

：

2020年08期

【关键词】

：

语义分析信息抽取多特征主观偏好关键词提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近几年,由于文献信息或者短篇新闻的数量呈现指数级增长,而且这些文本的信息量无时无刻不在增加。因此,如何从信息中抽取出具有重要意义的关键词,利用信息抽取技术对文本分类,并满足信息检索的需要,已经成为当前时期在自然语言处理领域研究的热点。传统的关键词提取方法主要使用TF-IDF算法,通过对不同领域,设置大小不同的阈值,来提取文本关键词,这种方法虽然速度快,适合搜索引擎的应用,但是受偶然性和领域局限性较大,准确率忽高忽低。而基于语义提取文本关键词的算法,能够达到词与词之间的词义分析层面,但是不同需求的人,理解文本的方式千差万别的,因此阅读同样的文章能够得到不同的关键词结果。信息抽取技术如果在语义的基础上综合词的多种特征,并能推断出用户的主观偏好,那么提取关键词的结果,不仅能满足不同人的需求又不失全面性,而且能适合不同场景的文本的关键词提取,提高关键词抽取技术的准确性和稳定性。因此,本文基于上述问题的现状进行深入研究,为了满足不同偏好关键词需求的目的,本文工作主要有以下四个方面:1.提出了一种基于WordNet语义词典下的DIP(Distance Information Property)语义相似度算法,利用词典中词汇间的五种结构关系,提取了路径因素、信息内容和属性因素三方面信息,并改进了传统的信息量的定义方式,量化了词与词之间的关联程度,不仅达到了提高关键词提取的准确率的效果,还解决了传统算法语义片面性的不足。2.提出了一种基于语义相似度的SA(Similarity Analysis)词义分析算法,使用单词引用次数作为调节因子,统计关键位置的关键词释义中去除无意义词之后的单词与关键词之间的DIP语义相似度大于特定阈值的数量,代替传统的统计词义覆盖率的算法,实现了准确定位多义词词义的目的。3.提出了多特征的五元组(词频,词长度,词跨度,词位置特征,语义相似度)的构成,通过设置不同大小的特征值,可以应对不同场景、不同领域、不同偏好的人的需要。4.提出了特征增益值的决策树和迭代计算用户主观偏好相关属性的方法,根据用户的结果反馈,能够推断出用户需要五元组中,特征值间的比例关系,在提高了抽取关键词准确率的同时,保证结果向着满足人的意愿产生。最后,为了验证本文算法的准确性、合理性和领域无关性,搭建了基于多特征抽取文本关键词的系统,使用知网中十个学科,五大分类下的200篇论文的英文摘要为信息来源,参考作者给出的关键词,当用户阅读文献后,进行100次二次迭代计算,再进行100次自动抽取。在统计关键词的准确度的同时,与国内外传统的基于语义的相似度算法进行对比,证明了基于多特征抽取文本关键词的算法不仅提高准确度,抽取的结果也向着满足用户偏好意愿的趋势计算。

其他文献

原花青素对大米淀粉理化性质及消化性的影响

大米淀粉由于其来源丰富、价格低廉以及能赋予食品多种功能特性而被广泛的应用于食品工业中,但是大米淀粉往往并不是单独存在于食品中,通常与其它化合物共存,多酚就是其中的

学位

大米淀粉原花青素理化性质消化性质相互作用

“冀研一号”东方鲀遗传特征和免疫力研究

“冀研一号”东方鲀是雌性菊黄东方鲀与雄性红鳍东方鲀杂交子代。在品质方面,其食用口感与菊黄东方鲀相似,市场价值高于红鳍东方鲀。在养殖方面,“冀研一号”东方鲀生长速度

学位

“冀研一号”东方鲀微卫星非特异性免疫免疫相关基因

海水溶解性有机质对磺胺氯哒嗪光降解的影响

由于河流输入、海水养殖等活动的影响,许多地区的近岸海水受到了有机微污染物（OMPs）的污染,研究这些OMPs在海水中的归趋行为,可为评价其在海水中的生态风险提供重要的数据支持

学位

磺胺氯哒嗪光降解溶解性有机质近岸海水

化学转化膜对AZ80镁合金可降解性的影响

镁及镁合金因其良好的生物相容性、力学相容性、可降解性以及骨诱导能力,在骨科植入物和心血管支架等领域具有巨大的应用前景。然而,镁及镁合金在生理环境中过快的降解速率成

学位

镁合金单宁酸转化膜植酸转化膜降解速率

低碳低合金高强汽车钢组织性能调控

先进高强钢中由于加入过多的Si、Mn等合金元素易形成Mn2SiO4等稳定的表面氧化物,降低热轧与冷轧钢板的表面质量,还会在热镀锌生产线上隔断锌液与钢板的反应,影响钢板的涂镀性

学位

Q&P钢残余奥氏体TRIP效应双相钢显微组织力学性能

城镇居民对地沟油治理的支付意愿及对策研究

目前,我国地沟油治理问题依然严峻。21世纪以来,中国地沟油问题逐渐进入政府部门和公众的视野,地沟油回流餐桌的报道和案件屡见报端和网络,从而演变成公众强烈关注的事件。随着地沟油的非法回收利用逐渐被媒体披露,地沟油产业链进入政府部门和公众的视野,政府组织开展了全国范围内的打击“地沟油”违法犯罪专项行动,查处了各类“地沟油”制售食用油的犯罪案件,也查处了一些餐饮企业使用地沟油的违法行为,地沟油非法制售、

学位

地沟油支付意愿计划行为理论结构方程模型对策建议

离心泵叶片表面空化冲击强度非定常特性研究

水力机械由于工作介质的特殊性,其运行过程中容易发生空化,伴随空化产生的负作用制约着水力机械向高效、稳定与节能的方向发展。泵、水轮、螺旋桨等水力机械内部空化现象更加

学位

空化水翼离心泵冲击载荷数值模拟

Pt/TiO2催化剂上氢气选择催化还原NOx的研究

本文针对Pt/TiO2催化剂,通过两种不同的策略对其进行处理以期提高其H2-SCR性能。并利用一系列表征方法,深入探究改良后催化剂活性提升的原因所在。牺牲碳层策略合成的Pt/TiO2

学位

氮氧化物H2-SCRPt/TiO2原位红外

1927-1936年南京国民政府公债对上海中资商业银行的盈利性影响研究

1927年南京国民政府成立以来,中资商业银行的快速发展,逐步取代传统金融业和外资银行,成为维系近代社会发展、服务政府和大众的重要力量。但是为了解决财政赤字,国民政府逼迫金融业向财政输血,双方形成了政府依赖公债、银行投机公债的畸形共生关系。上海中资商业银行在公债投资中获益颇丰,但承担了政府债务违约的风险和政治经济不稳定带来的市场风险。银行在政治压力和暴利诱惑的双重引导下深陷公债投资的漩涡中。本研究从

学位

公债盈利性上海中资商业银行

野生沙杵菇的分子鉴定和主要呈味物质分析

沙杵菇是在内蒙古自治区鄂尔多斯市准格尔旗沙漠地发现的一种野生食用菌,该地区气候干燥、土壤贫瘠,不适合食用菌的生长。但下过雨后,经常长出沙杵菇的菌体,其味道鲜美,具有

学位

野生食用菌毛头鬼伞分子鉴定呈味物质营养价值

基于多特征抽取文本关键词算法的研究

与本文相关的学术论文