基于CCD的术语抽取研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:cexo0924
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
术语自动抽取是计算术语学中最重要的任务之一,它的主要目的是从专门领域的文本集中识别出能代表本领域的文本单元的集合,如词语等。术语抽取是自然语言信息处理中的一项基础性课题,在很多领域都有广泛的应用,如自然语言生成、计算词典编撰学、句法分析、语料库语言学的研究、统计机器翻译、信息检索、文本分类、文本摘要等领域。本文首先介绍了领域术语的概念和特征,然后介绍了术语自动抽取的各种方法以及特点,以及术语自动抽取存在的不足之处。本文利用术语的语言特征和统计特征进行术语抽取系统的研究与实现,提出了基于一般词典和种子信息的单个词术语抽取的方法,又提出了如何进行二元术语抽取的算法初步研究,克服了目前术语抽取中存在的一些问题。在香港法律语料库(BLIS)上报告了我们以上方法的实验结果。本文的主要工作包括:①详细介绍了术语的相关概念,术语自动抽取的各种方法及特点,同时向大家介绍了各种语言资源,如中文概念词典(chinese Concept Dictionary,CCD)法律词库及BLIS语料库。②详细介绍了CCD及其建设中的问题,并针对CCD的后期工作的问题提出了自动消除噪音的方法。③提出基于CCD的单个词术语抽取算法,较好地利用词语间语义关系以及双语种子信息,扩充了现有法律词库中单个词术语,也为多词术语抽取提供了良好的素材。④结合术语的语言属性,在传统的统计方法上提出了二元术语抽取算法,较好地弥补了术语自动抽取的问题,同时,为多词术语抽取打下了良好基础。实验表明,本文的思想和算法都是有效且可行的,取得了良好的效果。同时正在研究开发可实用的程序来提高术语抽取工作的进展,本文的方法和结论可以为术语自动抽取工作的研究提供参考。
其他文献
学位
ASP(Application Service Provider,应用服务提供商)平台为加速中小企业的信息化进程提供了一个有效途径,随着平台的不断推广,企业用户信息(如客户信息、财务信息等)的不断增加,
本文对基于Web的问答系统答案抽取进行了研究。文章提出了一个新的结合形式概念分析的概念化聚类用户日志的方法,使用改进的基于DBSCAN聚类算法聚类用户的日志,根据问题/查询词
随着手机应用的迅速扩展,越来越多的应用程序从电脑移植到手机上面,而三维程序在手机上的应用也极大的丰富了手机的应用范围。然而,由于手机物理硬件及计算能力的限制,大型场
在目前的人脸图像信息处理领域中,包含有人脸识别、人脸跟踪、姿势估计、表情识别等多个研究方向,然而,所有这些研究方向都涉及到一个人脸标识和定位的问题,即必须知道人脸在图像
随着3D动画、影视特效、建筑模型、数字媒体等产业的迅速发展,人们对三维场景绘制的需求也越来越多。三维绘制具有计算量大、数据繁多的特点,特别是随着建模技术的发展和人们
随着网络技术的迅猛发展,信息处理成为人们获取有用信息不可缺少的工具。文本分类是中文信息处理的一个重要的研究领域。其目标是在分析文本内容的基础上,给文本分配一个或多
对等网络技术(P2P)作为一种新兴的技术,近些年来得到快速的发展。P2P中的每个节点既是资源的提供者,又是资源的获取者。与传统的模式相比,具有无可比拟的非中心化、可扩展性强、
随着互联网的飞速发展,越来越多的企业和用户连接到互联网中。人们在充分享受着互联网所带来的方便和高效的同时,也不断受到各种计算机病毒感染和黑客恶意攻击的侵扰。在网络安
互联网用户所创造的“内容”正在迅猛增长,从不同渠道涌现的图像、视频等不同类型的媒体数据以及用户信息更加紧密的结合。它们正在以一种新的形式,更为形象综合地表达语义、