基于频繁模式挖掘的关键词抽取算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:sxyzx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词抽取是从文本或文本集合中抽取描述主题性的词或短语。准确地抽取文本中的关键词可以快速总结文本内容,在许多自然语言处理任务中都有着至关重要的作用,如信息检索和支持决策等。当前大多数的关键词抽取方法不能针对每篇特定的文本进行抽取,通常都是抽取一个文本集合或者一个语料库中的关键词,而且不能灵活的捕获单词之间的语义关系。针对上述问题,本文提出两种新颖的从英文文本中抽取关键词的算法。一种是特定文本中强语义关系的监督关键词抽取算法Ke_MSMING。该算法首先将序列模式挖掘和LDA主题模型相结合,进行关键词候选集合的搜索:其次,利用有监督的机器学习算法训练关键词抽取模型;最后,选取预测概率值大的前top-k个词作为最终的关键词。在训练阶段,算法Ke_MSMING不仅使用了 baseline features和pattern features训练模型,而且使用从语义网络中获得的centrality features训练模型,语义网络不仅为关键词抽取提供了丰富的语义信息,而且提供了单词之间的共现信息。另一种是基于频繁模式挖掘和词嵌入模型的关键词抽取算法Ke_MSMVec。该算法首先构建文本共现网络,接着使用deepwalk算法学习网络中结点的向量表示;其次,学习到文本中单词的向量表示后,由于题目和摘要是文本主题的高度概括,提出对文本中题目和摘要的词向量求和取平均值的方法,得到文本的参考向量(reference vector),将该参考向量视为该篇文本的语义向量表示;紧接着,使用基于一般间隙约束和one-off条件的序列模式挖掘算法MSMING对文本的关键词候选集合进行搜索,算法MSMING不仅可以搜索出重要的高频词,而且可以挖掘出意思相似而出现形式多变的词;最后,计算关键词候选的词向量和文本参考向量的相似性值,计算结果作为特征,和基本特征以及模式特征拼接后送入分类器进行模型的训练。本文提出的两种关键词抽取算法可以捕获文本中的语义信息,能够有效的解决传统关键词抽取方法中忽略语义等问题。我们在数据集INSPEC和SemEval-2010上进行实验,通过Precision、recall与F1值这三种评价标准对实验结果进行对比,实验结果表明,本文提出的两种关键词抽取算法优于其它关键词抽取算法。
其他文献
蚕桑产业是我国历史悠久的传统产业,桑园管理机械化的实现对促进蚕桑产业的发展具有重要意义。桑树栽植作为蚕桑产业的关键环节,桑园耕作需耗费大量的体力劳动和时间。随着我
目的:鼻咽癌(nasopharyngeal carcinoma,NPC)是我国南方地区发病率非常高的恶性肿瘤之一,研究人群中鼻咽癌发生发展的早期诊断和干预的综合性防治策略具有重要的公共卫生学意
在役钢筋混凝土结构会受到自然环境的影响,其影响因素主要分为侵蚀介质和气候环境条件两大类。氯离子是环境中最危险的侵蚀介质,其侵蚀加快了钢筋混凝土中钢筋的腐蚀速度,致
鲁氏耶尔森菌(Yersinia ruckeri)是一种世界性的感染多种冷水性鱼类的重要病原菌,给世界水产养殖业造成了严重的经济损失。为探讨四川部分区域鲁氏耶尔森菌的耐药表型、耐药
我国南方土壤镉单一及镉砷复合污染问题日益凸显,治理农田土壤Cd及Cd-As复合污染,保障稻米质量安全已成为近年来研究热点。重金属Cd和As在土壤中所表现出的吸附性、溶解性以
癌症已经成为全世界人类的最大致死原因,乳腺癌是目前女性最常见的恶性肿瘤之一,发生于上皮组织,发病率位居女性恶性肿瘤之首,全世界数百万妇女遭受着乳腺癌的折磨。乳腺癌是
近年来,人工智能技术取得了突破性的进展,引起了学术界和工业界的高度重视,甚至受到国家层面的政策关注.人工智能技术主要应用在计算机视觉、语言和图像处理、医疗诊断、机器
目的:对比极低出生体重儿撤机后使用经鼻间歇正压通气(nasal intermittent positive pressure ventilation,NIPPV)或经鼻双水平正压通气(biphasic positive airway pressure,
山羊传染性胸膜肺炎(Contagious Caprine Pleuropneumonia,CCPP)是由山羊支原体山羊肺炎亚种(Mycoplasma capricolum subsp.capripneumoniae,Mccp)引起的一类严重呼吸道疫病,
目的:通过研究NRP-1mAb对肝癌HepG2细胞株的生长抑制和促凋亡作用及其机制,并初步探究NRP-1mAb联合rhVEGI-192对肝癌HepG2裸鼠移植瘤的放射增敏作用及其机制,以明确这两种分