论文部分内容阅读
随着英特网的迅速发展,我们接触到的电子文档越来越多,如何从海量的电子资源中找出我们所需的内容显得越来越重要。如果一篇文档提供有关键词,那么读者可以快速的判断出这篇文档是否与他的信息需求是相关的。虽然关键词非常有用,但现存的大多数文档并没有标注出关键词,手工标注关键词费时费力。因此,自动关键词抽取技术是非常具有研究价值的。
中文关键词抽取技术发展迅速,现在人们已经提出了各种各样的方法。我们可以把抽取关键词看作是一个分类过程,即把词语分为“关键词"和“非关键词"两类,但常规分类方法是将词语映射到单一的类别,而且使用一般的分类器对特征间的独立性假设会引起一些问题,从而导致抽取结果不够理想。
模糊逻辑可以很好的解决这个问题,但传统的模糊逻辑控制思想需要预先设置控制规则,而由于专家知识的局限性以及环境的可变性,任何一个专家都无法得到一个最佳的规则或最优的隶属函数。神经网络具有很强的学习能力,如果将模糊逻辑与神经网络结合,模糊控制规则和隶属度函数就可以通过对样本数据的学习而自动地生成,克服了人为选择模糊控制规则主观性较大的缺陷。因此,本文将模糊逻辑与神经网络结合应用于中文关键词抽取。
我们首先计算出作为训练样本词语的三个特征值,然后标注词语属于两个类的隶属度值。根据这些样本训练模糊神经网络得到中文关键词抽取模型。在测试阶段,先识别一篇文档的候选关键词,计算每个候选关键词的特征,用模型计算出词语属于两类的隶属度,得到词语的隶属度后就可以通过排序等手段抽取出所需的关键词。
最后我们将本文算法与著名的关键词抽取算法KEA(Keyphrase Extraction Algorithm)进行比较,实验结果表明,本文算法对于中文关键词的抽取效果要优于KEA。