中文术语抽取若干问题研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:romotic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
术语,作为专业知识的集中载体,它的创建、普及和消亡,动态展现了一个学科的发展、演变历程。专业术语数据库作为一种知识源,能够为各类研究人员便捷地获取专业知识提供重要支持。术语自动抽取是构建专业术语库的关键技术,同时也是自然语言处理领域中的一项基本课题,为包括机器翻译、文档摘要、信息检索、文本分类、词典编纂等在内的诸多自然语言研究起到支撑作用。本文突破了名词短语的限制,接纳更多非名词性结构的专业术语,拓宽了语言规则。结合实证分析和机器学习策略,分别从结构完整性、领域相关度和词语搭配三个方面展开研究,主要工作包括:1.以词为最小语言单位,构建一个涵盖四万余条计算机专业术语的数据库。针对不同长度术语的分布特性,结合机器学习方法从多角度提炼出术语结构的词法特征。丰富语言规则的同时,扩大了规则覆盖面,提高术语抽取的召回率。2.针对单词型术语结构简单,边界清晰的特征,提出一种基于模糊聚类的识别算法。将术语识别过程成功转化为二值分类任务,无需专业辞典和诸多语料库的支持,实现单词型术语的自动聚合标注。3.不同于已有方法中采用单一父串到多子串的归并策略,本文从单一子串与多父串之间的逆向映射关系出发,提出了一种基于独立性统计的子串归并算法,以此判断候选术语的结构完整性。实验表明,在O(n)的时间内,该算法不仅可以删除普通子串,还能有效过滤由公共子串造成的干扰,将候选术语集有效缩减29.44%。4.以非名词性词语的构词能力为研究对象,提出了“词汇活跃度”(Word Active Degree, WAD)的概念。同时结合词汇间粘合度,分析短语内部词语的搭配特征,过滤掉非良性搭配和局部成分过分活跃的短语。实验表明,采用WAD作为词语搭配评判标准,对由动宾短语和介词短语引发的错误有较强的识别能力,正确率高达99.97%。5.根据术语和非术语在语料库中变化趋势的分布差异性,结合局部及全局特征,提出了一种基于分布变化特征的领域相关度计算方法。实验表明,该方法不仅能够大幅降低计算复杂度,还可以显著提升低频术语和基础术语在输出结果中的排序。
其他文献
在三维CAD软件日益普及的情况下,模块化设计方法应用越来越广。本文介绍了模块化的概念及进行板式换热机组模块化设计的过程及方法,如建立标准件模块、配套件模块、自制件模
<正> 一陇右甘肃,地域广袤,山河壮丽,历史悠久,文学传统,源远流长,上自周秦,下迄“五四”,诗文作者,代不乏人。然“时运交移,质文代变”①,时代不同,历代文学,精神各异。有清
事业单位实施线效工资是完善事业单位收入分配制度的重要内容。本文主要从事业单位工资改革入手,研究了当前事业单位绩效工资制度的现状及改革方向,以期为行业相关人士提供一
农村教育改革之所以陷入困境,其中重要的原因是农村教师之于农村的特殊价值未得以充分发挥。农村教师日益疏离乡村生活,陷入社会身份认同危机和专业主义误区,其公共性和社会
网络信息化的发展改变了中职生的人生观、价值观和世界观,也对中职学校的德育模式提出了挑战。对此,中职学校如何构建从课堂扩展到课外以及从学习理论知识扩展到社会实践的全
目的了解手足口病流行特征和发病趋势,为制定防治策略提供科学依据。方法采用EPIin-fo2000和Excel2003软件对疫情信息监测管理系统的监测资料分析。结果累计报告250例,发病率
信息化技术的高速发展和普遍应用,加速了事业单位人事档案信息化建设的进程。本文简述了当前事业单位在进行人事档案信息化建设过程中存在的问题,并针对性地提出了完善策略。
根据近些年国内外耐锌腐蚀的研究成果,将耐锌腐蚀方法分为两大类:自身耐锌腐蚀材料和表面改性处理。自身耐锌腐蚀材料主要集中在Fe-Cr-Mn、Fe-B、Ti Al Nb等材料上,表面处理
文章从学校体育礼仪教育的形成与发展及与各要素间相互关系入手,主要采用文献资料研究法,对体育礼仪教育进行研究,诠释了学校体育礼仪教育的含义及内容,对学校体育礼仪教育在
去年以来,内蒙古自治区包头市九原区委积极履行党风廉政建设主体责任,大力支持纪检监察机关履行监督职责,努力种好“责任田”。$$    完善体制机制。强化责任意识。九原区以
报纸