综合型语言知识库系统原型的开发与中文缩略语知识库建设

来源 :北京大学 | 被引量 : 0次 | 上传用户:lurnay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的研究工作是围绕综合型语言知识库建设展开的,包括两部分:综合型语言知识库系统原型的开发与中文缩略语知识库建设。 北京大学计算语言学研究所(ICL/PKU)十多年来积累了大量的语言资源。由于各个资源是独立开发的,使得逻辑上原本联系紧密的各个资源之间交叉参照困难,且无法方便地进行知识挖掘。为解决这些问题,需先填平各项资源之间的“缝隙”,然后将这些资源放在同一平台上,使得它们可以方便进行交叉参照;同时建立数据挖掘软件,发现新知识,也就是建设综合型语言知识库系统。本文首先介绍了综合型语言知识库系统原型实现的规划和步骤,然后介绍了为填补各项资源之间缝隙而建设的部件词库及词类标记集转换表,最后详细介绍了综合型语言知识库系统原型主体部分的建设。 缩略语是自然语言语汇的重要组成部分,缩略语研究也是自然语言处理的一个重要课题。本项研究的最终目标是探索中文缩略语的规律,包括缩略语的生成和还原。本文的工作旨在建设计算机自动处理中文缩略语所需的知识库。利用北大计算语言所的两大基础语言资源《现代汉语语法信息词典》和“大规模基本标注语料库”,建设了中文缩略语知识库,收录了八千条缩略语及其对应的全称,提出了面向信息处理的中文缩略语分类框架,完成了相当数量的缩略语归类,并根据计算机自动处理缩略语的需要建设了缩略语.全称对1的特征词自动提取程序,为缩略语库知识库中每一个缩略语.全称对自动填写特征词。 本文研究得到国家973课题“文本内容理解的数据基础(2004CB318102)”和ICL/PKU与香港大学语言系签署的关于中文简称合作研究项目的支持。
其他文献
随着卫星、CT成像等传感器的广泛应用,空间数据的数量和复杂性都在飞快地增长,但空间数据的处理技术却相对落后,因此,空间数据挖掘成为了数据挖掘的一个新的研究领域。空间离群点
近年来各种对等通信业务如即时通信、文件共享和多媒体分发等应用广泛流行,已超过Web应用成为占用互联网带宽最多的网络应用。然而,因IP地址短缺、网络接入设备增多、互联互通
高速公路交通事件的快速检测,对及时有效地进行交通事故救援和处理、有效减少由于交通事故产生的交通延误及避免二次事故的发生具有重要意义,是智能交通系统中的重要组成部分
InfiniBand是一种高带宽、低延迟的支持RDMA传输方式的高速互连技术,由于其传输方式的特殊性,现在主要在高性能服务器的设计中使用。随着Java集群被广泛部署于企业集群环境中,作
离群点挖掘随着数据挖掘的发展引起了广泛关注。通过对国内外离群点挖掘算法的研究情况分析可知,以往的离群点挖掘算法还存在诸多问题,例如用户定义的阈值往往直接影响着挖掘
Internet的普及使得软件的运行平台从单机环境发展为开放性、异构性的网络环境。这不仅使软件本身的规模迅速增长,同时也增加了软件的复杂性。软件在应用范围、规模和复杂性上
门限签密方案在现实生活中具有广泛的应用,比如电子选举,电子拍卖。设计门限签密方案时主要考虑两大问题:一是效率问题。二是分享者,分发者的欺骗问题。论文根据现存的门限签
随着卫星全球定位系统和无线通讯技术等科学技术的快速发展,已经能够跟踪并记录移动对象的位置信息。移动对象在地理信息系统、移动计算和基于位置的电子商务等方面发挥着重
电子邮件(Electronic Mail,E-Mail)是目前使用最广泛的互联网应用。随着互联网络以惊人的速度增长,电子邮件成为发布恶意信息的一个重要途径,垃圾邮件已经成为危害互联网络的最
多年的企业信息化建设,企业内部已经建立许多分散孤立的应用系统,随着业务规模不断扩大,集成已经成为当今企业的迫切需求。但是企业应用一般都由运行在不同操作系统,多个层面