关键词抽取方法研究及应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户:x_schen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词抽取是自然语言处理中的基础与核心技术。通常对非结构化文本的自动处理,如自动文摘、文本聚类、自动问答等,均需要先进行关键词抽取。关键词是表达文档主题意义的最小单位,能够概括文档的主题信息。传统的抽取方法是依据文档中词汇的统计信息,计算各词汇的权重,抽取关键词。这类方法的缺陷是没有考虑词的主题表达能力,有很大概率抽取出一些常用词,使得关键词存在歧义性,不能准确概括文档的主题信息。针对这一缺陷,本文从两方面研究词的主题特性:研究词的主题特征对关键词抽取效果的影响;研究词的主题关联作用并应用于抽取微博关键词。论文主要工作包括:  ①构造了基于主题特征的关键词抽取模型。使用有监督的机器学习方法,并新增了词的主题特征(Topic Feature,TF),构建关键词抽取模型。该模型首先使用LDA主题模型模拟文档集中主题和词的分布情况;再依据该分布情况计算词的主题特征;最后使用装袋决策树训练关键词抽取模型。实验验证主题特征可以提升关键词抽取的效果,在抽取10个关键词时,F值从21.26提高到23.12。  ②提出了一种基于主题关联性的微博关键词抽取方案。使用基于图的方法,结合词的主题相关性,构建抽取微博关键词的方案。该方案首先依据微博短文本的各种特性,在分词之前进行预处理;然后考虑词的主题相关性,构建文本的图表示;最后使用TextRank算法迭代计算图中各节点词语的权值。实验在三个不同的数据集上验证该方案的有效性,结果表明该方案抽取的关键词具有鲜明的主题特性。
其他文献
互联网近年来呈现蓬勃发展趋势,网上的信息量每日呈爆炸式的增长。信息海量增长的同时,百度,谷歌等通用搜索引擎已经无法满足人们对特定领域的搜索需求。为此,针对特定领域的垂直
随着互联网技术的快速发展,信息的结构也变得多样化。文本数据不但包含内容信息,也包含了共同作者关系(coauthors),相互引用关系(citations),地理位置和时间等附加信息,这样就构成了多
进化算法已经用于逻辑电路设计很多年。相比于传统的逻辑电路设计方法,进化算法有其独特的吸引人之处。使用进化算法设计电路不需要太多专业的背景知识,具有智能化的特点。逻辑
数十年来,计算机体系结构技术一直在不停的演化和发展着,而来自上层的应用需求则是一个重要的驱动来源。随着一些新兴应用的不断出现,传统的高性能通用处理器已经难以发挥其功效
盲签名是一种特殊的数字签名,签名者无法得知待签名消息的内容。盲签名的完全盲性使得签名者对签名消息不可控,并且会导致密钥管理变的复杂。部分盲签名是盲签名的一种拓展,
现如今,WCDMA协议已经成为了两大主流通信体制的一部分并越来越受到人们的关注。而对于无线通信系统来说,呼叫流程能否成功建立是一个很关键的问题,可以称得上是整个通信系统
近些年,信息通信技术取得了飞速发展,消费类电子产品发生了很大的变化,正在朝着互联、互控和互通的方向发展,人们的生活迈入全新的智能时代。智能手机、平板电脑、汽车电子设
为了方便人们的阅读习惯、网页的排版格局以及网站的商业目的,网页中往往充斥了许多与网页正文无关的内容,如导航条、相关链接和商业广告等信息。无关信息的存在,对网页的检索、
首先,马太效应或累积优势(CA)在各个领域都被广泛研究。它被认为是造成劳动工资、教育,健康以及职业的不平等因素,甚至很大程度上是影响科学活动如拨款申请、期刊出版、同行的认
在当代人类生活中,选举已经成为每个公民一项必不可少的政治活动。在选举过程中,人民参与政治主要是通过投票来实现的。因此,投票成为民主国家下广泛的政治行为之一。而这载