利用短语抽取系统建设基于语义理解的知识库

来源 :东北大学 | 被引量 : 0次 | 上传用户:tim826
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语分析技术是中文信息处理的基础.目前,汉语词法分析技术已比较成熟,但在词法分析之上的短语分析及句法分析仍然很不成熟.究其原因,主要在于汉语是一种意合语言,语言表达上缺乏相应的语义结构信息,在句法层面上难以得到比较合适的规律,从而很难进行深入的分析.但是,汉语的短语本位语法理论认为:词组和句子的构造原则基本一致.词组被包含在句子里时是词组,独立时就是句子.因此,在句法分析领域,采用分而制之的处理思路,比较而言,更加符合汉语语法语义的基本结构特征.进而,针对汉语短语结构的组块分析技术得到了越来越广泛的应用.在汉语的范畴内,不加严格限制的说,组块就是短语或者词组.所谓组块分析,其基本思想是将完整的句法分析分为两个过程:首先是组块的识别:从句子中识别出组块;其次是组块之间关系的判断:将组块结合成句子.该文介绍了一种基于层叠有限状态自动机的组块分析方法,理论上可以按层次分析出句法结构树,或者句法结构森林.在组块的识别过程中,主要依靠对于汉语短语的主观语言经验,定义分析规则,同时利用分析预处理阶段得到的统计信息计算出局部互信息,用以验证规则匹配后得到的结果.此外,这种组块分析方法还把判断组块之间关系的工作融合在组块的识别过程中,当较高层次的组块被抽取出来以后,其内部较低层次组块之间的关系就确定了.对于该分析系统而言,最重要的子系统是定义规则和确定规则运行序列的语言知识加工模块.该文设计了一些算法策略,用来考察和筛选运行效果较好的规则,同时优化规则运行的序列.这对提高分析器的分析质量有很大的帮助.该文另一个重要内容是定义了一种二元结构处理不同条件下的短语标注,这种处理方法在实践上大大减少了规则的数量,使得对于规则以及规则作用序列的优化成为可能.最后,该文还设计了一种以上述分析器为核心,基于语义理解的知识库系统,它定义了一系列数据结构,用来模拟真实世界的概念表达形式以及概念之间的关系,并以此来记录加入了句法结构标记的中文文本中的语义信息.这必将为自然语言处理的语义研究做出一定的贡献.
其他文献
近年来,随着科学技术的迅速发展,能源负荷监测作为一个热门话题,对于电力系统的智能化发展具有至关重要的意义。传统的能源负荷监测方法一般是在每个负荷的配电输出端安装带有通
随着大数据时代的到来,数据的存储和访问不再囿于传统的封闭环境;同时,信息安全也关乎国家安全、企事业利益和个人隐私。以往在封闭环境中成熟的数据安全体系,是以单个系统为
本论文的全文包括五章内容。第一章简单介绍了WebGIS的概念和发展现状,尤其是了当前WebGIS的信息安全的发展状况。第二章具体介绍了WebGIS的体系结构以及安全问题。第三章则是
学位
目前专家系统推理机的研究分为三类:本地推理机基于本地的知识库进行推理、本地推理机基于网络知识库进行推理和网络推理机基于网络知识库进行推理.随着网络技术的发展以及信
本课题研究了基于API截获的远程实时监测技术。其中,如何实现稳定高效的数据采集、制定功能完备的应用层协议、设计健壮的服务器端软件是关键。本文论证了利用截获Windows API
神经网络作为机器学习的重要方法,在生物信息学领域中取得了广泛的应用,尤其是生物序列的模式分析中,如蛋白质的分类、启动子的识别与分类等等.神经网络也同样被应用于蛋白质
由于应用性的数据的爆炸式增长(如商业分析),及计算机的软硬件技术的发展完备,数据挖掘已经成为近几年来应用最广泛的分析数据的工具。挖掘重要数据仍然需要配合许多其他领域的
众多的理论和实际工程问题通常是由一些连续系统与离散系统构成的混杂系统描述,其计算都可归结为半代数系统混杂计算,包括:计算机视觉定位,微分系统奇点及其稳定性判定,电子电路
随着WebGIS广泛的应用,不可避免地出现地理信息孤岛,特别是在实施数字地球战略计划中,这一问题越来越突出。因此,实现异构地理信息系统之间的数据共享、分布、互操作以及标准化的