基于模糊逻辑的中文关键词抽取研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:cannyjie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着英特网的迅速发展,我们接触到的电子文档越来越多,如何从海量的电子资源中找出我们所需的内容显得越来越重要。如果一篇文档提供有关键词,那么读者可以快速的判断出这篇文档是否与他的信息需求是相关的。虽然关键词非常有用,但现存的大多数文档并没有标注出关键词,手工标注关键词费时费力。因此,自动关键词抽取技术是非常具有研究价值的。   中文关键词抽取技术发展迅速,现在人们已经提出了各种各样的方法。我们可以把抽取关键词看作是一个分类过程,即把词语分为“关键词"和“非关键词"两类,但常规分类方法是将词语映射到单一的类别,而且使用一般的分类器对特征间的独立性假设会引起一些问题,从而导致抽取结果不够理想。   模糊逻辑可以很好的解决这个问题,但传统的模糊逻辑控制思想需要预先设置控制规则,而由于专家知识的局限性以及环境的可变性,任何一个专家都无法得到一个最佳的规则或最优的隶属函数。神经网络具有很强的学习能力,如果将模糊逻辑与神经网络结合,模糊控制规则和隶属度函数就可以通过对样本数据的学习而自动地生成,克服了人为选择模糊控制规则主观性较大的缺陷。因此,本文将模糊逻辑与神经网络结合应用于中文关键词抽取。   我们首先计算出作为训练样本词语的三个特征值,然后标注词语属于两个类的隶属度值。根据这些样本训练模糊神经网络得到中文关键词抽取模型。在测试阶段,先识别一篇文档的候选关键词,计算每个候选关键词的特征,用模型计算出词语属于两类的隶属度,得到词语的隶属度后就可以通过排序等手段抽取出所需的关键词。   最后我们将本文算法与著名的关键词抽取算法KEA(Keyphrase Extraction Algorithm)进行比较,实验结果表明,本文算法对于中文关键词的抽取效果要优于KEA。
其他文献
随着嵌入式领域中模型驱动开发技术的日益成熟,基于模型驱动的分层建模技术与层次划分方法广泛应用于计算机领域系统高层功能和行为的建模。如何在多处理器、多层次的建模过程
当今随着Web服务的发展,关系数据库中的数据量成几何级数的增长。但其传统的检索方式soL语句并不适用普通用户使用,而适合普通用户使用的数据库关键词检索的查询效率切一直不能
频发的突发公共事件给社会生产,人民生活造成了严重的危害。应急决策支持系统综合应用多种先进的技术手段,可以为应急管理全过程提供辅助决策支持,己成为应对突发公共事件主要技
无线传感器网络现已经被广泛应用到各行各业,然而其也面临着各类的安全挑战。入侵检测系统是一种重要的安全手段,能够保护其免受攻击,但是其与传统的网络在组织结构等方面存在不
Web服务是一种支持互联网上设备之间进行交互的新型应用。将多个单一的功能有限的Web服务组合起来,可以灵活的实现更加强大的功能。随着Web服务数量的增多,如何在较短的时间内
TSC695是一款基于SPARC V7体系结构高可靠性、高性能的处理器,在工业控制、军工电子和空间应用等领域有着广泛的使用。但是针对TSC695的JTAG调试器非常有限。本文针对TSC695嵌
在自然界中,许多复杂和有趣的现象都能够被归为非线性现象。大脑的认知活动便是其中之一。用来解释非线性现象的理论称作非线性动力系统,也叫做混沌理论。人的大脑在物质上的
组播技术实现了网络中点到多点的高效数据传送,能够大量节约网络带宽,降低对网络设备系统资源的占用。组播技术的优点使得其在日益流行的流媒体业务中得到了广泛的应用,如IPTV业
Web服务组合是将Web上的多个功能单一、自治的、可共享的Web服务按照业务流程进行通信和协作,形成粒度更大、功能更强的复杂服务,以满足用户更高的目标需求。随着Web服务技术不
:随着无线网络技术的发展,无线传感器网络近年来引起了广泛的关注。该网络由大量具有有限感知能力和传输能力的节点组成。受节点自身能量的制约,如何能源有效的利用节点使得