综合型语言知识库系统原型的开发与中文缩略语知识库建设

来源 :北京大学 | 被引量 : 0次 | 上传用户：lurnay

【摘要】

：

本文的研究工作是围绕综合型语言知识库建设展开的，包括两部分：综合型语言知识库系统原型的开发与中文缩略语知识库建设。北京大学计算语言学研究所(ICL/PKU)十多年来积累

【作者】

：

支流

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2008年期

【关键词】

：

知识库系统中文缩略语语言知识库语言资源自然语言处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文的研究工作是围绕综合型语言知识库建设展开的，包括两部分：综合型语言知识库系统原型的开发与中文缩略语知识库建设。北京大学计算语言学研究所(ICL/PKU)十多年来积累了大量的语言资源。由于各个资源是独立开发的，使得逻辑上原本联系紧密的各个资源之间交叉参照困难，且无法方便地进行知识挖掘。为解决这些问题，需先填平各项资源之间的“缝隙”，然后将这些资源放在同一平台上，使得它们可以方便进行交叉参照；同时建立数据挖掘软件，发现新知识，也就是建设综合型语言知识库系统。本文首先介绍了综合型语言知识库系统原型实现的规划和步骤，然后介绍了为填补各项资源之间缝隙而建设的部件词库及词类标记集转换表，最后详细介绍了综合型语言知识库系统原型主体部分的建设。缩略语是自然语言语汇的重要组成部分，缩略语研究也是自然语言处理的一个重要课题。本项研究的最终目标是探索中文缩略语的规律，包括缩略语的生成和还原。本文的工作旨在建设计算机自动处理中文缩略语所需的知识库。利用北大计算语言所的两大基础语言资源《现代汉语语法信息词典》和“大规模基本标注语料库”，建设了中文缩略语知识库，收录了八千条缩略语及其对应的全称，提出了面向信息处理的中文缩略语分类框架，完成了相当数量的缩略语归类，并根据计算机自动处理缩略语的需要建设了缩略语.全称对1的特征词自动提取程序，为缩略语库知识库中每一个缩略语.全称对自动填写特征词。本文研究得到国家973课题“文本内容理解的数据基础(2004CB318102)”和ICL/PKU与香港大学语言系签署的关于中文简称合作研究项目的支持。

其他文献

空间离群点挖掘算法的研究

随着卫星、CT成像等传感器的广泛应用，空间数据的数量和复杂性都在飞快地增长，但空间数据的处理技术却相对落后，因此，空间数据挖掘成为了数据挖掘的一个新的研究领域。空间离群点

学位

空间离群点挖掘算法邻域对象KNN图WSO思想隐藏机制

NAT环境下对等通信的数据传输路径优化研究

近年来各种对等通信业务如即时通信、文件共享和多媒体分发等应用广泛流行，已超过Web应用成为占用互联网带宽最多的网络应用。然而，因IP地址短缺、网络接入设备增多、互联互通

学位

数据传输对等通信路径优化文件共享多媒体分发

视频交通事件检测系统研究与设计

高速公路交通事件的快速检测,对及时有效地进行交通事故救援和处理、有效减少由于交通事故产生的交通延误及避免二次事故的发生具有重要意义,是智能交通系统中的重要组成部分

学位

车辆检测车辆检测视频检测视频检测事件检测事件检测阴影消除阴影消除昼夜切换昼夜切换图像识别图像识别

基于InfiniBand的Java集群通信技术研究

InfiniBand是一种高带宽、低延迟的支持RDMA传输方式的高速互连技术，由于其传输方式的特殊性，现在主要在高性能服务器的设计中使用。随着Java集群被广泛部署于企业集群环境中，作

学位

集群通信高速互连低速以太网网络架构

基于蚁群算法的离群点挖掘算法研究

离群点挖掘随着数据挖掘的发展引起了广泛关注。通过对国内外离群点挖掘算法的研究情况分析可知,以往的离群点挖掘算法还存在诸多问题,例如用户定义的阈值往往直接影响着挖掘

学位

离群点挖掘时序多变量蚁群算法图像切割k-means

一种软件约束的描述方法与工具实现

Internet的普及使得软件的运行平台从单机环境发展为开放性、异构性的网络环境。这不仅使软件本身的规模迅速增长，同时也增加了软件的复杂性。软件在应用范围、规模和复杂性上

学位

软件质量约束描述语言XML文件在线监测测试工具

门限签密方案的研究

门限签密方案在现实生活中具有广泛的应用,比如电子选举,电子拍卖。设计门限签密方案时主要考虑两大问题:一是效率问题。二是分享者,分发者的欺骗问题。论文根据现存的门限签

学位

群组通信基于身份的密码体制签密门限方案双线性对

基于预计算的路网k路径近邻查询研究

随着卫星全球定位系统和无线通讯技术等科学技术的快速发展,已经能够跟踪并记录移动对象的位置信息。移动对象在地理信息系统、移动计算和基于位置的电子商务等方面发挥着重

学位

预计算NN listsVoronoi图k路径近邻移动对象数据库

基于I-Match算法的垃圾邮件过滤研究

电子邮件(Electronic Mail，E-Mail)是目前使用最广泛的互联网应用。随着互联网络以惊人的速度增长，电子邮件成为发布恶意信息的一个重要途径，垃圾邮件已经成为危害互联网络的最

学位

电子邮件垃圾邮件过滤特征选择I-Match算法

基于JBI规范的消息路由器的研究与设计

多年的企业信息化建设,企业内部已经建立许多分散孤立的应用系统,随着业务规模不断扩大,集成已经成为当今企业的迫切需求。但是企业应用一般都由运行在不同操作系统,多个层面

学位

JBI规范JBI规范消息路由器消息路由器插件式组件插件式组件功能模块功能模块性能测试性能测试

综合型语言知识库系统原型的开发与中文缩略语知识库建设

与本文相关的学术论文