论文部分内容阅读
关键词抽取是自然语言处理中的基础与核心技术。通常对非结构化文本的自动处理,如自动文摘、文本聚类、自动问答等,均需要先进行关键词抽取。关键词是表达文档主题意义的最小单位,能够概括文档的主题信息。传统的抽取方法是依据文档中词汇的统计信息,计算各词汇的权重,抽取关键词。这类方法的缺陷是没有考虑词的主题表达能力,有很大概率抽取出一些常用词,使得关键词存在歧义性,不能准确概括文档的主题信息。针对这一缺陷,本文从两方面研究词的主题特性:研究词的主题特征对关键词抽取效果的影响;研究词的主题关联作用并应用于抽取微博关键词。论文主要工作包括: ①构造了基于主题特征的关键词抽取模型。使用有监督的机器学习方法,并新增了词的主题特征(Topic Feature,TF),构建关键词抽取模型。该模型首先使用LDA主题模型模拟文档集中主题和词的分布情况;再依据该分布情况计算词的主题特征;最后使用装袋决策树训练关键词抽取模型。实验验证主题特征可以提升关键词抽取的效果,在抽取10个关键词时,F值从21.26提高到23.12。 ②提出了一种基于主题关联性的微博关键词抽取方案。使用基于图的方法,结合词的主题相关性,构建抽取微博关键词的方案。该方案首先依据微博短文本的各种特性,在分词之前进行预处理;然后考虑词的主题相关性,构建文本的图表示;最后使用TextRank算法迭代计算图中各节点词语的权值。实验在三个不同的数据集上验证该方案的有效性,结果表明该方案抽取的关键词具有鲜明的主题特性。