从大规模中文语料中获取和验证概念的研究

来源 :中国科学院计算技术研究所 | 被引量 : 1次 | 上传用户:xibao774313066
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何用智能化的手段把网页上浩如烟海的文本转化为知识,是目前知识获取领域十分紧迫的问题。而概念以及概念间的关系是知识的基本组成部分,因此如何获取并验证概念成为从文本到知识的过程中不可逾越的重要步骤。概念获取和验证的本质就是获取代表概念的词语并验证这个词语指代概念的可能性。由于汉语本身的特点,中文概念获取和验证不适合直接采用其他语言的处理方法。而且我们需要获取的概念不局限于一个具体的领域,这使得中文概念获取存在诸多困难。为此本文从多种角度开展了的以下研究:(1)基于构词规则的抽取和验证方法。一般地,构词规则是语言学家对大量语言材料研究之后人工建立的,但由于概念的覆盖范围很广,人工获取构词规则非常困难,规则的适用性也受到严峻的考验。本文提出了一种基于词法分析和统计的构词规则自动获取方法。实验表明,该方法行之有效。(2)基于构词贡献的验证方法。提出并实现了一种利用概念词之间的贡献关系迭代地验证概念词的方法,其基本思想是概念词内部存在着一些概念词构件,在大语料中它表现了一种比较好的统计特征,我们首先利用统计方法获取这些概念词构件,然后利用已有词典和概念词构件来进行概念验证。另外,概念词中存在大量以原有词为蓝本产生的新词语,这些新词语与已有概念词结构相似。我们利用机器学习方法分析这些概念词之间存在的类推关系,生成新词语产生的类推模式,做为验证概念词的有益补充。(3)概念词的开放验证方法。提出了一种利用概念词的上下文特征和公共上下文模式进行概念词验证的方法。由于人工获取上下文模式代价比较高,本文实现了一种基于模式学习的上下文模式学习方法,并对模式进行评价,把综合性能比较好的模式用于概念词的抽取和验证中,减少了人工构建模式的代价。同时由于概念词开放验证算法的复杂度较高,本文还提出了一种利用概念的验证依赖关系降低验证规模的算法。(4)概念抽取和验证的统一框架。本文提出并实现了一个概念抽取和验证的统一框架,该框架融合了规则、统计、语义和上下文信息等多种方法。系统首先使用概念获取模式得到候选概念串;然后利用构词贡献进行验证,若不能验证,再利用分割符把候选概念串分隔成句块;然后在概念抽取模块,利用正则表达式规则从句块中抽取概念,并进行初步评价;最后利用统计验证方法召回抽取模块未能抽取的新词语,并重新评价有歧义的概念词。
其他文献
随着Internet和多媒体业务的飞速发展,传统IP网络所采用的“尽力而为”的转发机制,已经不能满足用户的要求。没有提供QOS保证则是影响IP网络向综合网络发展的主要因素。 QoS
CNS多彩信息系统全称Color Notes System,是由Motorola公司提出的一种强大的信息转换平台。CNS系统的提出削弱了当前移动彩信业务的局限性,刺激了多媒体彩信业务的发展。交互式
因特网打印协议IPP(InternetPrintingProtocol)是基于HTTP协议的应用层协议。2000年IETF组织发布了IPP版本1.1,它是网上传送和管理打印任务的国际标准。本文主要研究了IPP协议
利用图像处理技术对黄瓜叶部白粉病害进行检测,可以准确认识黄瓜病害,保证我国粮食产量与质量。基于图像处理的黄瓜叶部白粉病害的检测技术的研究在国内刚刚起步。本文总结国
随着互联网经济的快速发展,互联网已然成为带动国民经济发展的新引擎,如何更快、更好的为更多用户提供互联网信息服务成为互联网基础服务提供商面临的关键问题,因此对于研究
本文根据CDMA2000和WCDMA前向链路的数据传输特点,抽象出一个理论模型,并研究一种递阶SIR分配和速率分配算法,用于前向链路的大规模数据传输。其中数据用户的Qos通过时延、误码
无线传感器网络需要面临各种各样的安全威胁,如节点暴露在不安全的环境中时易被俘获;采用无线电信号传播时易被截获等。因此网络安全问题是无线传感器网络中的一个重要研究方
随着计算机和通信技术的发展,基于Internet的应用在过去的十几年中不断增长,随之而来的网络拥塞问题也越来越严重,现有的拥塞控制算法远远无法满足网络的需求。目前应用最为广泛
随着网络的普及和对人们日常生活影响的不断深入,Web论坛富于交互性,即时性,开放性的特点逐渐吸引了大批网络用户,而且还呈不断增长的趋势,其内容涵盖的范围已从早期的少量有
随着数据库与信息技术的深入和发展,时态信息处理已成为许多新一代数据库信息系统的关键技术。虽然在理论上已经证明时态数据库拥有传统数据库所无法企及的优点,但在实践中还没